MetaのAIの研究者によると、音声生成AIのVoiceboxには、パフォーマンスと、さまざまな音声生成タスクに使える機能を備えているという。

Voiceboxは、幅広いスタイルで高品質のオーディオクリップを作れるもので、以前のスピーチシンセサイザーを超えている。以前のバージョンとは異なり、Voiceboxは出力を最初から生成したり、既存のサンプルを非常に高い精度で変更したりできる。このモデルの機能には、6つの異なる言語での音声合成、ノイズ除去、コンテンツ編集、スタイル変換、Meta AIによって詳述される多様なサンプリングが含まれる。

MITの研究者によると、Voiceboxは、ゼロショットテキスト読み上げにおいて、明瞭度(単語誤り率5.9パーセント対1.9パーセント)と音声の類似性(0.580対0.681)の両方の点で、現在の最先端のモデルVALL-Eを上回っており、20倍も高速だという。

Voiceboxの多彩な用途:

  • コンテキスト内テキスト読み上げ合::Voiceboxはオーディオスタイルに一致し、2秒の入力サンプルに基づいたテキスト読み上げの生成に使用できる。これにより、話すことができない人を支援したり、仮想アシスタントやノンプレイヤーキャラクターの音声をカスタマイズしたりできる可能性が広がる。
  • 言語を越えたスタイルの転送:さまざまな言語の音声サンプルとテキストの一節が与えられると、Voiceboxはその言語でテキストの読み上げを生成し、言語の壁を越えた自然で本物のコミュニケーションを促せる。
  • 音声のノイズ除去と編集:Voiceboxは、オーディオ録音内のセグメントをシームレスに編集することに優れている。音声全体を再録音することなく、短時間のノイズを除去したり、言い間違えた単語を置き換えたりすることができる。この機能により、一般的な画像編集ツールと同様に、オーディオ編集タスクが簡素化できる。
  • 多様な音声サンプリング:さまざまな実際のデータを使用したトレーニングに基づいて、Voiceboxは、サポートされている言語全体で現実世界の音声パターンを厳密に表す音声を生成する。音声アシスタントモデルを効果的にトレーニングするための合成データを生成できる可能性がある。

責任を持って研究を共有する

Meta AIは、音声生成AIに進歩をもたらすVoiceboxの可能性を紹介する一方、公開性と責任のバランスをとる必要があるとして、現時点ではモデルとそのコードを一般に公開しない決定を下した。代わりに、音声サンプルと、アプローチと結果を詳しく説明した研究論文を共有し、責任あるAI開発とその影響をめぐる継続的な会話の重要性を強調した。