Generatived(Beta)|生成AIの最新ニュースとトレンドを提供
Google Research、自律的な視覚情報探索手法であるAVISを紹介
Generatived
2023年8月21日
Google Researchは最近の「AVIS:Autonomous Visual Information Seeking with Large Language Models」というブログで、AVISという手法を紹介した。AVISは、視覚情報探索タスクに関する現在の視覚言語モデル (VLM) の制限に対処することを目的としている。Google Researchは、画像キャプションや視覚的な質問応答などのタスクのマルチモーダル入力を処理するために大規模言語モデル (LLM) を適応させる点で大きな進歩を遂げた。しかし、現在の最先端の視覚言語モデル (VLM) は、質問に答えるために外部の知識を必要とするデータセットを求める視覚情報に苦労している。これに対処するために、Google Researchは、LLMとコンピュータービジョン ツール、ウェブ検索、および画像検索を統合する自律的な視覚情報探索手法であるAVISを導入した。AVISは、LLMを利用したプランナーと推論機能とワーキングメモリー コンポーネントを使用して、重要な情報を効果的に抽出して分析する。このアプローチは、複雑な現実世界のシナリオにおいて、以前の方法よりも優れたパフォーマンスを発揮するという。過去の研究では、マルチモーダル入力用にLLMにツールを追加することが検討されてきたが、複雑なシナリオでは困難になることがよくある。さらに、LLMを自律エージェントとして適用することに関心が寄せられているが、ツールの選択が無制限であるため、エラーが発生する可能性があるという。AVISは、ユーザー調査による人間の意思決定に基づいたガイド付きLLMの使用を使用して、これらの課題に対処する。つまり人間が外部ツールをどのように使用するかを理解することで、AVISは遷移グラフを構築して個別の状態を定義し、利用可能なアクションを制限する。これにより、システムのパフォーマンスと有効性が向上するという。AVISは、プランナー、ワーキングメモリー、推論器という3つの主要コンポーネントを備えた動的な意思決定戦略を採用している。プランナーは、現在の状態に基づいて次のアクションを決定し、遷移グラフを参照して無関係なアクションを削除する。ワーキングメモリーは過去のツールの対話からの情報を保持し、推論器はツールの出力を分析し、追加のデータ取得が必要かどうかを判断する。この動的な意思決定プロセスにより、入力されたクエリーへの回答が徐々に得られる。InfoseekとOK-VQAデータセットの評価では、AVISが以前のベースラインと比較して高い精度を達成していることが示されたという。Infoseekでは、AVISは微調整なしで目に見えないエンティティの分割で50.7%の精度を達成し、OFAやPaLIのような堅牢な視覚言語モデルを上回った。OK-VQAでは、AVISは、数ショットのコンテキスト内サンプルで60.2%の精度を達成し、これまでのほとんどのモデルを上回った。Infoseekと比較したパフォーマンスの違いは、PaLIのモデルパラメーターにエンコードされているOK-VQAの常識知識への依存によるものだという。
Generatived は、Generative AIに特化した情報やトレンドをお届けするサービスです。大きく変わりゆく世界の情報を全力でお届けします。
ニュース
Generatived は、Generative AIに特化した情報やトレンドをお届けするサービスです。大きく変わりゆく世界の情報を全力でお届けします。
Copyright © 2024 Generatived - All right Reserved.