Generatived（Beta）｜生成AIの最新ニュースとトレンドを提供

新たなマルチモーダル情報検索モデルを発表

Generatived

25/7/2 0:00

視覚データとテキストデータの統合により、視覚言語モデル（VLM）が開発されました。VLMは、視覚情報とテキスト情報を統合し、両方の情報を処理・理解することができます。これらのモデルは、視覚的な質問応答や画像キャプション作成など、より直感的な機械インタラクションを促進するように設計されています。画像とテキストを組み合わせた広範なデータセットで学習されており、近年の進歩により、複雑な画像に対応できるモデルが開発され、信頼性と効率性が向上しています。

文書検索の分野では、従来の手法では、処理前に文書をテキストに変換することが多かったです。しかし、VLMの登場により、複雑なテキスト抽出が不要になり、このプロセスが簡素化されました。これらのモデルは、生の画像を直接埋め込むことで、視覚情報を維持しながらテキストの意味を解釈することができます。しかし、VLMは優れた機能を備えているにもかかわらず、依然としてエラーが発生しやすいため、正確な検索手順がVLMの効果を左右する重要な要素となっています。

大規模で効率的なマルチモーダル情報検索システムの構築を支援するために、新しいモデルが導入されました。このモデルはコンパクトでありながら強力で、画像とテキストを共有特徴空間に埋め込むことができます。これは、商品検索エンジンやマルチメディアデータセットの整理といったタスクに不可欠です。ビジョンエンコーダー、言語モデル、そして投影層を組み合わせることで、画像を言語モデルの埋め込み空間にマッピングします。

この新しいモデルの性能は様々なデータセットで評価され、他の小規模なビジョン埋め込みモデルと比較して優れた検索精度が実証されています。コントラスト損失を用いて微調整することで、テキストクエリの埋め込みと関連する回答を含む文書画像を対応付けています。このモデルは、高精度な情報検索とリアルタイムのビジネスインサイトを提供するために設計されたマイクロサービススイートの一部であり、ホスト環境で利用可能です。

ソース：NVIDIA Developer Blog