企業は、コンテンツ作成から顧客サービスの改善に至るまで、さまざまな生成AIアプリケーションを強化するために基盤モデルを採用することが増えている。ただし、これらの高度なニューラルネットワークは、特定の組織の目標や価値観に合わせて微調整する必要がある。人間のフィードバックからの強化学習(RLHF)は、トレーニングプロセスに人間の判断を組み込むことによって、大規模言語モデル(LLM)などのモデルを改良するために使用される方法だ。

RLHFには、報酬モデリングと強化学習という2段階のプロセスが含まれる。最初に、同じプロンプトに対する複数の応答がLLMによって生成され、人間の評価者によってランク付けされて、人間の好みを反映するデータセットが作成される。次に、このデータセットに基づいて応答をスコアリングするように報酬モデルがトレーニングされ、人間が生成したランキングと一致することを目指す。その後、強化学習はこれらのスコアを利用して、LLMが人間の好みに一致する可能性が高い高品質の応答を生成するように導く。

RLHFの実装には、強力なハードウェアアクセラレーターと分散トレーニング技術を利用した、そのフェーズの高度なオーケストレーションが必要だ。特定のAIプラットフォームはRLHFをサービスに統合し、企業向けにPaLM 2、FLAN-T5、Llama 2などのモデルのチューニングを簡素化するパイプラインテンプレートを提供する。この統合は、モデルに望ましくない応答の例を提供することで、モデルのパフォーマンスを強化し、高度なハードウェアによるチューニングを加速し、安全性を向上させるように設計されている。

実際の応用として、リクルートグループは、HRドメイン内の履歴書作成タスクの基礎モデルを改良するためにRLHFを実験してきた。この実験の目的は、RLHFチューニングによって、プロの品質基準を満たす履歴書を生成するモデルの能力が向上するかどうかを判断することだ。人事専門家がパフォーマンスを評価したところ、RLHF調整モデルによって生成された履歴書の品質が、基礎となるモデルと比較して大幅に向上したことが示された。同グループは現在、AIが生成したコンテンツと人間の専門家が作成したコンテンツを比較し、自動化に伴う潜在的なメリットとコストを評価しようとしている。

ソース:AI & Machine Learning | Google Cloud Blog