著名な機械学習企業であ​​るGalileoは、主要な言語学習モデル(LLM)のユーザーが特定のアプリケーションで幻覚を引き起こす可能性が最も低いモデルを特定するのに役立つ幻覚インデックスを発表した。Galileo Labsが開発したこのIndexは、AIの幻覚によってもたらされる課題への対応策であり、AIは現実的に見える情報を生成するが、最終的には不正確であるか、文脈とは無関係だ。これは、LLMベースのアプリケーションを開発するあらゆる規模の企業にとって大きな障害となっているとのこと。

Hallucination Indexは、さまざまな開発者からの11個のLLMを評価し、一般的な生成AIタスクにおける各モデルの幻覚傾向を評価する。Indexからの重要な洞察には、検索なしの質問と回答タスクでトップの成績を収めたOpenAIのGPT-4が含まれており、印象的な精度と幻覚の可能性が最も低いことが実証されている。オープンソースモデルでは、MetaのLlama-2-70bがリードしているが、他のモデルは幻覚の傾向が高いことが示されたという。

検索付きの質疑応答タスクでは、OpenAIのGPT-4-0613が優れており、コスト効率が高く、より高速なGPT-3.5ターボモデルがそのパフォーマンスにほぼ匹敵した。興味深いことに、Hugging FaceのオープンソースモデルであるZephyr-7bは、Metaのより大きなLlama-2-70bを上回り、より大きなモデルが本質的に優れているという考えに異議を唱えました。長文テキスト生成では、OpenAIのGPT-4-0613が再びトップパフォーマンスとなり、幻覚の傾向が最も少ないことが示されたという。

この指数は、オープンソースモデルによるコスト削減の機会も強調している。例えば、長文テキスト生成タスクの場合、MetaのオープンソースLlama-2-13b-chatモデルは、Open AIのモデルの実行可能な代替手段となる。検索タスクを伴う質問と回答の場合、ユーザーはOpenAIの代わりにHugging FaceのZephyrモデルを自信を持って試すことができる。このIndexは、Galileo Labsが開発した幻覚検出手法であるChainPollを活用した、Galileo独自の評価指標である正確性とコンテキスト遵守によってサポートされているとのことだ。

出典:プレスリリース