オルツ(東京都港区)は、大規模言語モデル(LLM)の「ハルシネーション」現象をスコアリングする新手法を開発したと発表した。ハルシネーションとは、LLMが事実に基づかない虚偽の回答をする問題で、信頼性の低下につながる。オルツはこの問題に対処するため、「ハルシネーション自動評価エンジン」を開発し、ハルシネーションの発生確率を自動で評価する。

同社の研究開発チームは、JcommonsenseQAデータセットを用いた実験で、72%の正解率を達成。このエンジンは、オルツの「LHTM-OPT」だけでなく、GPT-3.5やLlama2など他のLLMにも適用可能だ。一貫性を重視した評価方法で、生成された内容の不一致や矛盾を検出し、ハルシネーションの有無を確認する。

このエンジンは、オルツのAPIサービス「alt developer」を通じて利用できるようになった。詳細は「alt developer」の公式サイトで確認できる。LLM関連プロジェクトに関する問い合わせは、アライアンス窓口を通じて受け付けている。

出典:プレスリリース