top of page
Generatived(Beta)|生成AIの最新ニュースとトレンドを提供
%20(1).webp)
NVIDIA、MoE学習性能を大幅向上
Generatived
26/6/22 0:00
NVIDIA(米カリフォルニア州サンタクララ)は、大規模AIモデルで採用が進むMixture-of-Experts(MoE)向けに、新たな融合MLPカーネルを発表した。CuTe DSLを活用し、メモリー転送や同期処理の負荷を削減したという。
同社によると、新カーネルはGEMM、活性化関数、量子化処理を単一カーネルへ統合することで、従来の非融合実装比で1.3~2倍のカーネル性能向上を実現した。CUDA Graphによる同期不要のMoE実行にも対応する。
DeepSeek-V3の事前学習環境では約8%、GPT-OSSの事前学習環境では最大93%のエンドツーエンド性能向上を確認したとしている。特にGLU系活性化関数やFP8、NVFP4量子化処理の効率化が寄与したという。
これらの技術はcuDNN Frontend、Transformer Engine、Megatron Coreから利用可能となっている。NVIDIAは今後、JAX対応やさらなる融合パターンの拡充、事前コンパイル機能などの開発を進める方針を示した。

