top of page
Generatived(Beta)|生成AIの最新ニュースとトレンドを提供
logo.png

音声データからAIが「その声で喋りそうな顔を生成する技術」を発表

Generatived

2023年8月21日

RevComm Research(RCR)の論文が音声言語処理分野で最も重要な国際会議「INTERSPEECH 2023」で、採択された。RCRの研究者である加藤集平氏と橋本泰一氏が「Speech-to-Face Conversion Using Denoising Diffusion Probabilistic Models」という論文を投稿し、採択されたもの。この研究では、音声データを入力するとAIがその声で喋りそうな顔を生成する技術を開発した。従来の手法ではなく、拡散モデルを導入することで、高品質な顔画像を生成できることを示した。また、写真由来の高解像度の顔画像単独のデータを訓練データとして使用することで、顔画像出力の解像度を向上させることにも成功した。この研究の成果は、電話で通話相手の顔が分からない場合に、音声からアバターを生成して画面に表示することで、コミュニケーションの促進につながると期待されているという。RCRは今後も音声・言語・画像の領域に関わる研究開発を推進し、コミュニケーションを豊かにするためのAI技術の深化を行っていく予定だ。

Generatived

Generatived は、Generative AIに特化した情報やトレンドをお届けするサービスです。大きく変わりゆく世界の情報を全力でお届けします。

  • Facebook
  • X

フォローをお願いします

Copyright © 2024 Generatived - All right Reserved.

bottom of page