Metaは、この分野におけるイノベーションと責任ある進歩を促進することを目指して、いくつかのAI研究モデルを世界のAIコミュニティーにリリースすると発表した。共有モデルの中には、画像とテキストの両方を理解して生成できる混合モーダルモデルであるChameleonがある。Chameleonは、テキストと画像の組み合わせを処理できる能力が際立っており、キャプションの生成や新しいシーンの作成などのクリエーティブアプリケーション向けの多目的ツールを提供する。

言語モデルの効率性を高めるために、Metaはマルチトークン予測アプローチを導入した。この方法では、AIモデルをトレーニングして一度に複数の単語を予測する。これは、従来の単語予測とは大きく異なる。コード補完タスクの改善を目的としたこのアプローチの事前トレーニング済みモデルは、現在、研究専用ライセンスで利用できる。

同社はまた、AI生成音楽の制御を高める新しいモデルであるJASCOを発表した。主にテキスト入力を使用していた以前のモデルとは異なり、JASCOはコード、ビート、その他の音楽要素を組み込むことができ、より多用途で制御された音楽生成エクスペリエンスを提供する。このイノベーションにより、ユーザーは音楽制作プロセスで記号と音声をシームレスに融合できる。

AI生成音声の検出という課題に対処するため、MetaはAudioSealを開発した。これは、オーディオクリップ内の合成音声を局所的に検出できる透かし技術だ。AudioSealの効率的な検出機能はリアルタイムアプリケーション向けに設計されており、従来の方法よりも大幅に高速だ。このツールは、生成AIの悪用を防止するというMetaの取り組みの一環であり、商用ライセンスの下でリリースされている。

最後に、Metaは、地理的格差を減らすことを目的とした評価コードと注釈をリリースすることで、テキストから画像への生成システムの多様性に貢献している。同社の研究には、AI生成画像における地理的表現の地域的認識をより深く理解するための大規模な注釈研究が含まれている。この取り組みは、コミュニティーが生成モデルにおける多様性と表現を強化するのに役立つと期待されている。

ソース:Meta Newsroom