MetaのFundamental AI Research (FAIR)チームは10周年を迎え、この10年間でAIが大幅に進歩し、オープンで責任ある研究に取り組んできたことを記念している。過去10年間にわたり、チームは画像内のオブジェクトを認識するツールであるSegment Anythingを使用してオブジェクト検出において大きな進歩を遂げてきました。また、教師なし機械翻訳の技術も開拓し、英語に依存せずに100の言語を翻訳できるモデルの開発につながったという。

今年の初めに、FAIRチームはオープンな事前トレーニング済みの大規模言語モデルであるLlamaをリリースし、続いて研究と商業利用の両方に利用できるLlama 2をリリースした。これらの開発は、新しいAI製品とエクスペリエンスの作成につながり、現在世界中で何百万人もの人々に使用されている。チームの最新の進歩には、Ego-Exo4D、Audiobox、シームレスコミュニケーションが含まれるという。

Ego-Exo4Dは、AIに人間の目を通して世界を認識するよう教えるために設計されたツールであるEgo-Exoのアップデートだ。ウェアラブルカメラからの一人称ビューと、その人の周囲のカメラからの外部ビューをキャプチャーする。これにより、AIモデルは人々が見聞きするものを包括的に理解し、環境に関するより多くのコンテキストを得ることができる。将来的には、これらの進歩により、スマートグラスを着用している人が仮想AIコーチの指導を受けながら新しいスキルを迅速に学習できるようになる可能性があるという。

Voiceboxの後継であるAudioboxは、オーディオの編集、サンプリング、スタイリングを支援できる生成AIモデルだ。ユーザーは音声プロンプトやテキストの説明を使用して、生成したい音声や音声の種類を説明できる。例えば、ユーザーは「川の流れと鳥のさえずり」のようなプロンプトを含むサウンドトラックを作成できる。Audioboxを使用すると、あらゆる種類のプロジェクト向けにカスタムオーディオを簡単に作成できるという。

FAIRチームは、SeamlessM4Tでの成果を基に、AI翻訳モデルのスイートであるSeamless Communicationを導入した。これは、言語間で表現をより適切に保持し、話者が話している間に翻訳して速度を向上させる。このシステムは、表現力豊かな異言語コミュニケーションを可能にし、英語、スペイン語、ドイツ語、フランス語、イタリア語、中国語で機能するという。

FAIRチームのオープンサイエンスへの取り組みと成果の共有が、成功の重要な要因となっている。彼らのオープンな文化と探索的研究を行う自由により、機敏性を維持し、社会的つながりの未来の構築に貢献することができたとのことだ。

ソース:Meta Newsroom_AI