Generatived（Beta）｜生成AIの最新ニュースとトレンドを提供

Anthropic「影響関数を使用した大規模言語モデルの一般化の研究」

Generatived

23/8/16 9:40

Anthropicは、最近「影響関数を使用した大規模言語モデルの一般化の研究」というタイトルの画期的な論文を発表しました。この論文では、言語モデルの内部動作を理解するためのトップダウンのアプローチを検討し、これらのモデルがトレーニングデータからどのように一般化されるかを明らかにします。言語モデルがより強力になり、そのリスクが明確になるにつれて、何が言語モデルの行動を引き起こすのかを理解する必要性が高まっています。Anthropicによる以前の研究では、大規模な言語モデルはスケールと微調整の結果として性格や行動に変化を示すことが示されています。これらの変化を真に理解するには、モデルの仕組みを詳しく調べ、その出力が記憶に依存しているのか、それともより高度な処理に依存しているのかを判断することが重要です。Anthropicは最新の論文で、解釈可能性に対する補完的なアプローチとして影響関数を導入しています。影響関数は、モデルの出力に対するトレーニングサンプルの重要な寄与を決定する統計手法です。特定のトレーニングシーケンスの影響を分析することで、研究者はトレーニングデータからモデルがどのように一般化されるかについて洞察を得ることができます。この研究の重要な発見の1つは、モデルの規模が大きくなるにつれて、一般化のパターンがより抽象化されるということです。例えば、シャットダウンされていないことに関するクエリーに対するモデルの応答を調べると、より小規模なモデルに影響を与えるシーケンスは意味的には無関係ですが、重複するトークンを共有していました。対照的に、より大きなモデルに影響を与えるシーケンスは概念的に関連しており、AIにおける生存本能や人間のような感情などのテーマが関係していました。この研究では言語を越えた影響も調査されており、モデルのサイズが大きくなるにつれて、翻訳されたクエリーの影響がかなり強くなることが実証されました。この発見は、言語モデルの一般化パターンを分析する際に言語の多様性を考慮することの重要性を強調しています。さらに、この研究は、モデルの出力が純粋な暗記から生じるという概念を払拭します。通常、影響はべき乗則分布に従い、トレーニングデータのごく一部が最も大きな影響を及ぼしますが、その影響は依然として拡散しています。このモデルは、単にトークンレベルで個々のトレーニング例を列挙するだけではなく、より複雑で微妙な一般化のプロセスを示しています。影響関数は、各トレーニングシーケンスに対してスカラー値の影響スコアを提供するだけでなく、ニューラルネットワーク内で影響がどのように分散されるかについての洞察も提供します。平均すると、影響力はネットワークのさまざまな層に均等に分散されます。ただし、特定の影響クエリーの場合、影響はネットワークの特定の部分に局在化する傾向があり、最下位層と最上位層は詳細な文言情報を取得し、中間層はより抽象的なテーマレベルで一般化します。この研究は事前トレーニングされたモデルに焦点を当てていましたが、Anthropicは研究をファインチューニングにも拡張したいと考えています。ファインチューニングには、さまざまな教師あり強化学習の目標に基づいてモデルをトレーニングすることが含まれますが、これは驚くべき結果や課題につながる可能性があります。影響を特定の層やトークンに局在化できることにより、影響関数を機構的解釈可能性に結びつける可能性も広がり、最終的には特定の汎化パターンに関与するニューロンと回路が決定されます。モデルの出力と一般化パターンの背後にあるメカニズムを解明することで、研究者はAIの機能をより正確に予測し、AIシステムを人間の好みに合わせることができます。この研究の結果は、大規模な言語モデルの将来の開発と展開に広範囲に影響を及ぼします。

出典：Anthropic