Generatived（Beta）｜生成AIの最新ニュースとトレンドを提供

NVIDIA、Dynamo で MoE モデル推論を強化

Generatived

25/6/10 0:00

大規模言語モデル（LLM）の最新の進歩は、DeepSeek R1、Llama 4、Qwen3などのモデルに代表されるMixture of Experts（MoE）アーキテクチャへの移行を特徴としています。これらのMoEモデルは、推論時に一部の特殊パラメータ（つまり「エキスパート」）のみをアクティブ化することで動作し、計算負荷とコストを大幅に削減します。これらのモデルをNVIDIAのDynamo推論最適化とGB200 NVL72アーキテクチャの広範な領域と組み合わせることで、推論効率を大幅に向上させることができます。この相乗効果は特にAIファクトリーにとって有益であり、ユーザーエクスペリエンスの質を損なうことなく、GPUあたりのユーザーリクエスト処理能力を向上させることができます。

GPUパフォーマンスシミュレータを用いたハードウェア構成の広範な評価を含む最近の研究は、分解とモデルの並列性がMoEスループットに与える影響を明らかにしました。2018年にGoogle研究者がBERTモデルを開発して以来、モデルの重みは指数関数的に増加し、生成推論のスループットとインタラクティブ性への期待が高まっています。これに対処するため、現在ではモデルは複数のGPUに分割され、テンソル並列性（TP）、パイプライン並列性（PP）、データ並列性（DP）などの並列化技術が採用されています。推論のプレフィルフェーズとデコードフェーズを異なるGPUに分離する分散型サービングは、リソース利用率を最適化し、フェーズごとに異なるサービスレベル契約を満たす方法として登場しました。

NVIDIA Dynamoは、分散型推論サービスフレームワークによってMoEモデルの導入に革命をもたらしています。このフレームワークは、分散型サービスアーキテクチャの複雑さに対応するように設計されています。Dynamoは、プリフィルGPUとデコードGPU間のKVキャッシュの高速転送を促進し、受信したリクエストを適切なGPUにインテリジェントにルーティングします。また、ユーザーの需要に合わせてセットアップ全体を拡張し、効率的なリソース割り当てとサービスレベル契約の遵守を保証します。フレームワークのPlannerエンジンは、プリフィルフェーズとデコードフェーズ間のリクエストレートのバランスを自動化し、変化するワークロードに適応してGPUリソース構成を最適化します。

NVIDIA GB200 NVL72 NVLinkアーキテクチャは、分散型サービス構成におけるMoEモデルのパフォーマンスを最大化する上で重要な役割を果たします。GB200 NVL72は、GPU間の低レイテンシ・高帯域幅通信を可能にすることで、MoEモデルに不可欠な全対全通信パターンがネットワークの制限によって妨げられることを防ぎます。このアーキテクチャは最大72基のGPUをサポートし、通信速度を大幅に向上させ、幅広いエキスパート並列デコード構成の効率的な運用を可能にします。NVIDIA DynamoとGB200 NVL72の機能を組み合わせることで、MoEモデルのパフォーマンスが向上するだけでなく、従来の高密度モデルの提供においても大きなメリットをもたらし、AIファクトリーのスループット向上と持続的な利益拡大につながります。

ソース：NVIDIA Developer Blog