Generatived（Beta）｜生成AIの最新ニュースとトレンドを提供

NVIDIA NeMo-RL v0.3 は大規模言語モデルのトレーニングを強化します

Generatived

25/8/22 0:00

NVIDIAは、大規模言語モデルの学習機能を強化するNeMo-RLプラットフォームのアップデートを発表しました。初期リリースではPyTorch DTensorをサポートしていましたが、モデルのパラメータが数千億にまで増大するにつれ、より効率的なソリューションの必要性が明らかになりました。NVIDIAのMegatron-Coreライブラリは、大規模モデルのアクティベーションに関連するオーバーヘッドを削減し、パフォーマンス向上のために最適化されたCUDAカーネルを提供することで、この問題に対処します。

最新のNeMo-RL v0.3リリースではMegatron-Coreが統合され、開発者は大規模モデルの学習後処理を効率的に行うことができます。このライブラリは、6D並列化戦略を採用することで通信と計算を最適化し、幅広いモデルアーキテクチャをサポートしています。ユーザーは、NeMo-RLの自動チューニング機能とユーザーフレンドリーな設定インターフェースによって、Megatron-Coreへの移行を容易に行うことができます。

Megatronバックエンドを利用するために、ユーザーはYAML設定ファイルを簡単に変更し、アクティベーションチェックポイントやモデルの並列サイズなどの機能を有効にすることができます。設定プロセスは分かりやすく設計されており、詳細なドキュメントとサンプルスクリプトが提供され、ユーザーがモデルの効率的な後処理学習を支援できます。

Megatron-CoreとPyTorch DTensorのパフォーマンス比較では、特に密モデルとMixture of Experts（MoE）モデルにおいて、Megatron-Coreが優れた学習パフォーマンスを発揮することが示されています。シーケンスパッキングや重要度サンプリングといったNVIDIAの機能強化は、最適なスループットと収束性に貢献します。さらに、このプラットフォームはロングコンテキスト学習をサポートしており、最大16,000トークンのシーケンス長でも優れたパフォーマンスを発揮します。

NVIDIAは、開発者の皆様にNeMo-RLのドキュメントを参照し、大規模モデルの学習後処理のニーズにMegatron-Coreの最適化を活用することを推奨しています。継続的なパフォーマンス最適化と今後の機能追加により、NeMo-RL v0.3は、様々なモデルサイズにおいて効率的な強化学習学習を実現することを目指しています。

ソース：NVIDIA Developer Blog