OpenAI、AIを調整するためにスーパーアラインメントチームを発足

OpenAIのブログによると、この組織は超知能の調整の問題を解決することに専念する新しいチームを設立した。 Ilya SutskeverとJan Leikeが率いるこのチームは、人間の知能を超える AI システムの制御と操作に関連する課題に対処することを目的としている。 OpenAI は、今後４年間でコンピューティングリソースの 20% をこの重要な取り組みに割り当てる予定だ。

超知能の出現（シンギュラリティ―）はこの10年以内と予想されており、人類の最も差し迫った問題のいくつかを解決する計り知れない可能性を秘めている。しかし、超知能システムが行使する巨大な力は、人間の無力化や絶滅の可能性を含む重大なリスクももたらす。

現在、人間のフィードバックからの強化学習など、AIシステムを調整するための手法は人間の監督に大きく依存している。しかし、AIシステムが人間よりもはるかに賢くなるにつれて、従来の調整技術ではもはや十分ではなくなる。OpenAIは、超知性の連携によってもたらされる課題に効果的に対処するには、科学的かつ技術的なブレークスルーの必要があると認識している。

この問題に取り組むためのOpenAIのアプローチには、ほぼ人間レベルの機能を備えた自動アライメントの研究を構築することが含まれる。重要な計算リソースを活用することで、彼らは取り組みを拡大し、超知性を繰り返し調整することを目指している。その主なプロセスには、スケーラブルなトレーニング方法の開発、結果のモデルの検証、調整パイプラインのストレステストが含まれる。

人間にとって困難なタスクを評価する難しさを克服するために、OpenAIはAIシステムを活用してスケーラブルな監視を行うことを計画している。また、モデルが監視されていないタスクに対する監視をどのように一般化するかを理解し、制御することも目指している。調整の検証には、問題のある動作の検索を自動化し、AIシステム内部の解釈可能性を確保することが含まれる。さらに、OpenAIは、調整から外れたモデルを意図的にトレーニングして、深刻なずれを検出する技術の能力をテストする予定だ。

OpenAIは、この問題についてさらに学ぶにつれて、研究の優先順位が変わる可能性があることを認めている。さらに、その結果を広く共有し、OpenAI以外のモデルの整合性と安全性に積極的に貢献する重要性も強調している。

OpenAI/ChatGPT