大規模言語モデルの評価手法の開発 al+ Inc.

AI企業/製品/技術

大規模言語モデルの評価手法の開発 al+ Inc.

By Generatived 05/10/2024

オルツ（東京都港区）は、大規模言語モデル（LLM）の「ハルシネーション」現象をスコアリングする手法を開発したと発表。この現象は、LLMが事実に基づかない虚偽の回答をする問題で、信頼性に関わる重要な課題だ。

同社は独自のLLMを用いた研究を進め、「ハルシネーション自動評価エンジン」を開発。このエンジンは、ハルシネーション発生の有無を判定し、発生確率を自動で評価する機能を持つ。

実験では、エンジンがJcommonsenseQAデータセットを用いた擬似評価セットで72％の正解率を達成。オルツの「LHTM-OPT」のみならず、GPT-3.5やLlama2など他のLLMにも適用可能。

エンジンは一貫性を重視し、複数の生成プロセスを比較することで不一致や矛盾を特定。これにより、生成物が学習データや事実に基づいているかを確率的に評価する。

ソース：News_alt

AI企業/製品/技術日本の生成AI

SoundHound AI、Perplexity 統合でチャットを強化

前の記事

SoundHound AI、Perplexity 統合でチャットを強化

05/10/2024

コーレ新プランでAI開発加速

次の記事

コーレ新プランでAI開発加速

05/13/2024

Success! Your account is fully activated, you now have access to all content.

Error! Stripe checkout failed.

Success! Your billing info is updated.

Error! Billing info update failed.