Generatived（Beta）｜生成AIの最新ニュースとトレンドを提供

NVIDIA NeMo-RL: オープンソースの AI 強化学習ライブラリ

Generatived

25/7/14 0:00

NVIDIAは、強化学習（RL）によるインタラクティブAI開発を支援するオープンソースの学習後ライブラリ「NeMo-RL」を発表しました。このライブラリはNVIDIA NeMoフレームワークのコンポーネントであり、シングルGPUプロトタイプから最大320億パラメータの大規模モデルまで、幅広いモデルサイズをサポートするように設計されています。NeMo-RLは、 Hugging Faceモデルとのネイティブ統合、最適化された学習、DPOやGRPOなどの一般的なアルゴリズム、そして複雑なRLパイプラインを管理するためのRayベースのオーケストレーションを誇ります。

このライブラリの柔軟なバックエンドアーキテクチャは際立った特徴であり、複数のトレーニングおよびロールアウトバックエンドの利用を可能にします。現在、PyTorchネイティブ並列処理を備えたHugging Faceモデルをサポートしており、より大規模なモデル向けにMegatron-Coreバックエンドを導入する予定です。生成にはNeMo-RLのvLLMバックエンドが使用され、NVIDIA TensorRT-LLMやSGLangなどの他のバックエンドにも拡張できる可能性があります。この設計により、高レベルアルゴリズムの実装が特定のバックエンドの詳細に縛られることなく、異なるGPU構成間での容易なスケーリングが可能になります。

NVIDIAのNeMo-RLもユーザーフレンドリーで、長い思考連鎖推論モデルの学習プロセスを簡素化します。DeepScaleRレシピに従うことで、ユーザーはGRPOアルゴリズムを用いてQwen-1.5Bのようなモデルを学習し、AIME24などのベンチマークで競争力のあるパフォーマンスを実現できます。学習プロセスは段階的に構成され、最初は短い最大シーケンス長から徐々に長めにすることで、ロールアウトシーケンス長の分布を効果的に管理します。

強化学習プロジェクトに積極的に取り組みたい開発者や研究者のために、 GitHub上の NVIDIA NeMo-RL リポジトリには、ドキュメント、サンプルスクリプト、設定ファイルなど、豊富なリソースが用意されています。このライブラリはHugging Faceと統合されており、モジュール設計によって、強化学習モデルを効率的にトレーニングおよびスケーリングするための堅牢な基盤を提供します。

ソース：NVIDIA Developer Blog