Generatived(Beta)|生成AIの最新ニュースとトレンドを提供
.webp)
エクサウィザーズ、画像解釈生成AI「exaBase Visual QA」開発
Generatived
23/9/21 5:35
エクサウィザーズ(東京都港区)は、画像の内容を基にその状況を対話型で説明する生成AIモデル「exaBase Visual QA」を開発したと発表した。一般的な生成AIモデルと比べ、画像内の危険性などの状況を高精度に解釈して説明文を生成できるのが特徴で、消費者向けのサービスなどの商用にも利用可能だという。エクサウィザーズはAIの利活用によりサービスやプロダクトを提供し、それらを通じて生産性向上や社会課題の解決を目指している。エクサウィザーズが開発した「exaBase Visual QA」は、人が画像を見た時にどこに注目するのかを生成AIモデルに学習させることにより、人が直感的に認識可能な、画像内の危険性や違和感といった状況を高精度で解釈することが可能になった。exaBase Visual QAを実装したシステムとチャットボットのように対話することで、状況を説明する文章を生成する。具体的には、「潜在的な危険性はありますか」と入力することで、「作業員がバランスを崩したり足場が崩れたりすると落下につながる。作業員は金属棒を接続するために電動工具を使用しており、工具が滑ると負傷する可能性がある。適切な安全予防措置を講じるべきである」といった文章を生成する。エクサウィザーズの評価実験によれば、他の商用利用可能なモデルより最大で1割弱高い解釈の精度を持っていることが確認されている。同様の精度のモデルと比べてモデルのサイズも小さく、推論の実行や生成の速度も高速だという。exaBase Visual QAはオープンソースの生成AIモデルをベースに開発しており、エクサウィザーズが追加学習を実施しているためすぐに利用が可能だ。さらに個別の分野のデータを学習し、設定を調節する「ファインチューニング」をエクサウィザーズ側で行うことで、特定の分野での精度を向上させることも可能だという。exaBase Visual QAは自由な質問が可能で、幅広い分野の画像に対応可能だ。特に自然画像(人工的に生成した画像など以外)は高い精度で解釈できる。解釈した意味内容に基づいてデータを振り分ける「分類モデル」としての利用も可能だ。今回開発したexaBase Visual QAは生成AIモデルであり、さまざまなソフトウェアやシステムに組み込んで活用することを想定している。現時点でPoC(概念実証)用途での提供が可能で、当初は静止画を対象とするが、動画での活用も可能だという。

