Generatived（Beta）｜生成AIの最新ニュースとトレンドを提供

MMCTAgent AIが長編動画分析を強化

Generatived

25/11/14 0:00

MMCTAgentは、長編動画および画像データの分析を強化するために設計された新しいAIシステムを発表しました。GitHubでGitHubされ、 Azure AI Foundry Labsで紹介されているこのシステムは、MicrosoftのAutoGenマルチエージェントシステムを基盤としており、マルチモーダルな質疑応答のためのPlanner-Criticアーキテクチャを提供します。このアーキテクチャは、計画、考察、ツールベースの推論を促進するように設計されており、言語、視覚、時間的理解を効果的に連携させることで、静的なマルチモーダルタスクを動的な推論ワークフローに変換します。

MMCTAgentは、ImageAgentやVideoAgentといったモダリティ固有のエージェントと連携し、get_relevant_query_frames()やobject_detection-tool()といったツールを用いて反復的な推論を実行します。このアプローチにより、エージェントは各モダリティに適したツールを選択し、中間結果を評価し、Criticループを通して結論を洗練させることができます。この反復的なプロセスにより、MMCTAgentは膨大な動画や大規模な画像ライブラリ全体にわたる複雑なクエリを、説明可能性、拡張性、そしてスケーラビリティを備えて分析することが可能になります。

MMCTAgentの機能は、AutoGenを介して連携する2つの連携エージェント、PlannerとCriticによって駆動されます。Plannerエージェントは、ユーザーのクエリを分解し、推論ツールを識別し、マルチモーダル操作を実行し、予備的な回答を作成します。Criticエージェントは、Plannerの推論チェーンをレビューし、証拠の整合性を検証し、事実の正確性と一貫性を確保するために回答を洗練させます。この反復的な推論ループにより、MMCTAgentは構造化された自己評価を通じて回答を改善し、AI推論にリフレクションを取り入れ、様々な領域への適応性を高めます。

システムのVideoAgentコンポーネントは、アーキテクチャを長編動画推論へと拡張し、動画の取り込みとライブラリ作成、そしてクエリ時の推論という2段階の動作を実現します。この構造化されたアプローチとCriticツールによる推論出力の評価を組み合わせることで、MMCTAgentは情報密度の高い動画に対して正確で解釈可能な洞察を提供できます。同様に、ImageAgentはPlanner-Criticパラダイムを静的視覚分析に適用し、画像コレクションに対してきめ細やかで説明可能な推論を提供します。MMCTAgentの有効性は、複数の基本LLMモデルとベンチマークデータセットを用いた評価を通じて実証されており、専用ツールを追加することでパフォーマンスが大幅に向上することが示されています。

出典：Latest news - Source, Microsoft