top of page

Generatived(Beta)|生成AIの最新ニュースとトレンドを提供

logo.png

コード生成で、視覚的な質問へのモジュール式の応答が可能に

Googleのブログによると、最近の進歩により、限られたトレーニング例や人間による注釈付きのVQAデータがなくても良好に機能するビジュアル質問応答(VQA)手法の開発が可能になった。これらの改善にもかかわらず、完全に監視された方法と比較すると、パフォーマンスにはまだ差がある。 これに対処するために、研究者らは、モジュール式の視覚的な質問応答のためのコード生成を利用するフレームワークであるCodeVQAを開発した。このフレームワークはモジュール式の推論を可能にし、VQAモデルの機能を拡張する。

CodeVQAは、プログラム合成を利用して、モデルが画像を処理し、視覚的な質問に正確に回答できるようにするPythonコードを生成する。CodeVQAは、事前トレーニングされたモデルのみに依存するのではなくコードを生成することで、特に複雑な推論を含むシナリオでの精度を向上させることを目指している。少数ショット設定では、CodeVQAは以前のアプローチよりもCOVRデータセットで約3%、GQAデータセットで約2%優れている。
CodeVQAアプローチでは、コード記述大規模言語モデル(LLM)を利用して、視覚的な質問応答用のPythonコードを生成する。LLMは、関数の説明と限られた数の「コンテキスト内」の例を含むプロンプトによってガイドされる。これらの例は、関連するPythonコードと組み合わせられた視覚的な質問で構成され、LLMに関連するコンテキストを提供する。

CodeVQAは、query、get_pos、find_matching_imageという3つの主要なビジュアル関数に焦点を当てている。クエリー機能は、少数ショットのプラグ アンドプレーVQA (PnP-VQA)方式を使用して、単一の画像に関する質問に回答する。PnP-VQAは、画像キャプション変換機能であるBLIPを利用してキャプションを生成し、LLMによって処理されて回答が生成される。

get_pos関数はオブジェクトローカライザーとして機能し、画像内のオブジェクトの位置を決定する。GradCAMを利用して、画像とテキストの一致スコアを計算し、画像の特徴に関する勾配を分析することで、最も関連性の高い領域を特定する。

find_matching_image関数は複数画像の質問用に設計されており、指定された語句に最もよく一致する画像を選択する。BLIPテキストおよび画像エンコーダーを使用してテキストと画像の埋め込みを計算し、フレーズに対する各画像の関連性を評価する。関連性が最も高い画像が選択される。


CodeVQAフレームワークはこれら3つの機能を拡張でき、ユーザーはオブジェクト検出、画像セグメンテーション、ナレッジベース検索などの追加タスクを実装できる。 ウェブおよび少数のVQAサンプルから収集したテキストと画像とテキストのペアを利用して、最小限の注釈だけが必要なモデルを活用する。

この記事を共有:

最新のニュース
SoLabo税務AIポッドキャスト開始

SoLabo税務AIポッドキャスト開始

25/12/15 0:00

SoLabo(東京都渋谷区)は、税務とAIに焦点を当てたポッドキャスト「ソラボとラジオ 税務とAIを語ろう」を開始する。

アイスリーデザインAI開発コンソ加盟発表

アイスリーデザインAI開発コンソ加盟発表

25/12/15 0:00

アイスリーデザイン(東京都港区)は、「AI駆動開発コンソーシアム」への加盟を発表。

ナウキャスト導入ゴーゴーカレーDXツール

ナウキャスト導入ゴーゴーカレーDXツール

25/12/15 0:00

ナウキャスト(東京都千代田区)は、ゴーゴーカレー(石川県金沢市)が店舗開発DXツール「DataLens店舗開発」を導入したと発表。

スクエニAIゲーム開発ハッカソン

スクエニAIゲーム開発ハッカソン

25/12/15 0:00

スクウェア・エニックス(東京都新宿区)は、生成AI技術を活用した「生成AIを組み込んだ新規ゲーム開発ハッカソン」を2025年12月に開催する。

Copyright © 2024 Generatived - All right Reserved.

この記事を共有:

この記事を共有:

Generatived AI Logo

Generatived は、Generative AIに特化した情報やトレンドをお届けするサービスです。大きく変わりゆく世界の情報を全力でお届けします。

  • Facebook
  • X

フォローをお願いします

言語

最新のニュース
SoLabo税務AIポッドキャスト開始

SoLabo税務AIポッドキャスト開始

25/12/15 0:00

SoLabo(東京都渋谷区)は、税務とAIに焦点を当てたポッドキャスト「ソラボとラジオ 税務とAIを語ろう」を開始する。

アイスリーデザインAI開発コンソ加盟発表

アイスリーデザインAI開発コンソ加盟発表

25/12/15 0:00

アイスリーデザイン(東京都港区)は、「AI駆動開発コンソーシアム」への加盟を発表。

ナウキャスト導入ゴーゴーカレーDXツール

ナウキャスト導入ゴーゴーカレーDXツール

25/12/15 0:00

ナウキャスト(東京都千代田区)は、ゴーゴーカレー(石川県金沢市)が店舗開発DXツール「DataLens店舗開発」を導入したと発表。

スクエニAIゲーム開発ハッカソン

スクエニAIゲーム開発ハッカソン

25/12/15 0:00

スクウェア・エニックス(東京都新宿区)は、生成AI技術を活用した「生成AIを組み込んだ新規ゲーム開発ハッカソン」を2025年12月に開催する。

bottom of page