オルツ(東京都港区)は、大規模言語モデル(LLM)の「ハルシネーション」現象をスコアリングする手法を開発したと発表。この現象は、LLMが事実に基づかない虚偽の回答をする問題で、信頼性に関わる重要な課題だ。

同社は独自のLLMを用いた研究を進め、「ハルシネーション自動評価エンジン」を開発。このエンジンは、ハルシネーション発生の有無を判定し、発生確率を自動で評価する機能を持つ。

実験では、エンジンがJcommonsenseQAデータセットを用いた擬似評価セットで72%の正解率を達成。オルツの「LHTM-OPT」のみならず、GPT-3.5やLlama2など他のLLMにも適用可能。

エンジンは一貫性を重視し、複数の生成プロセスを比較することで不一致や矛盾を特定。これにより、生成物が学習データや事実に基づいているかを確率的に評価する。

ソース:News_alt