Generatived（Beta）｜生成AIの最新ニュースとトレンドを提供

NeMo Megatron Bridge、効率的なAIトレーニングを発表

Generatived

26/2/25 0:00

より大規模なAIモデルの需要が高まるにつれ、AIコミュニティは従来のBF16精度トレーニングから、低精度トレーニング手法の利点の探求へと焦点を移しつつあります。数値表現に使用するビット数が少ないこれらの手法は、GPUでのサイクルあたりの演算量を増加させ、トレーニング効率の向上とコスト削減につながります。

最近、3つの低精度トレーニング形式（FP8-CS、MXFP8、NVFP4）と、確立されたBF16精度との比較が行われました。広範な事前トレーニング実行とダウンストリームベンチマークに基づくこれらの比較では、低精度トレーニングは最大約1.6倍のスループット、大幅なメモリ節約、そしてBF16精度と同等のモデル品質を実現できることが示されています。

FP8-CS、MXFP8、NVFP4などの低精度トレーニング形式は、メモリ効率とスループットを最適化するように設計されています。 FP8-CSはテンソル単位のスケーリングを使用し、MXFP8は特定のGPUアーキテクチャ向けに最適化されたブロックレベルのスケーリングを採用し、NVFP4は階層的なスケーリング戦略を採用した4ビットフォーマットを導入しています。これらのフォーマットは高密度トランスフォーマーアーキテクチャでテストされており、下流タスクにおいて安定した収束と精度の維持が実証されています。

低精度トレーニングを採用するメリットは明らかで、トレーニングスループットとメモリ効率が大幅に向上します。これにより、特に高度なGPUプラットフォームにおいて、エンドツーエンドのトレーニングの高速化とスケーラビリティの向上が実現します。オープンソースライブラリであるNeMo Megatron Bridgeは、これらの低精度トレーニング手法の導入を容易にし、本番環境で利用可能なレシピを提供し、既存のワークフローへの統合を簡素化します。AIモデルのスケールが拡大するにつれて、低精度トレーニングは次世代モデルの効率的な開発において重要な役割を果たすことが期待されます。

ソース：NVIDIA Developer Blog