Generatived(Beta)|生成AIの最新ニュースとトレンドを提供
.webp)
NVIDIA、Dynamo で MoE モデル推論を強化
Generatived
25/6/10 0:00
大規模言語モデル(LLM)の最新の進歩は、DeepSeek R1、Llama 4、Qwen3などのモデルに代表されるMixture of Experts(MoE)アーキテクチャへの移行を特徴としています。これらのMoEモデルは、推論時に一部の特殊パラメータ(つまり「エキスパート」)のみをアクティブ化することで動作し、計算負荷とコストを大幅に削減します。これらのモデルをNVIDIAのDynamo推論最適化とGB200 NVL72アーキテクチャの広範な領域と組み合わせることで、推論効率を大幅に向上させることができます。この相乗効果は特にAIファクトリーにとって有益であり、ユーザーエクスペリエンスの質を損なうことなく、GPUあたりのユーザーリクエスト処理能力を向上させることができます。
GPUパフォーマンスシミュレータを用いたハードウェア構成の広範な評価を含む最近の研究は、分解とモデルの並列性がMoEスループットに与える影響を明らかにしました。2018年にGoogle研究者がBERTモデルを開発して以来、モデルの重みは指数関数的に増加し、生成推論のスループットとインタラクティブ性への期待が高まっています。これに対処するため、現在ではモデルは複数のGPUに分割され、テンソル並列性(TP)、パイプライン並列性(PP)、データ並列性(DP)などの並列化技術が採用されています。推論のプレフィルフェーズとデコードフェーズを異なるGPUに分離する分散型サービングは、リソース利用率を最適化し、フェーズごとに異なるサービスレベル契約を満たす方法として登場しました。
NVIDIA Dynamoは、分散型推論サービスフレームワークによってMoEモデルの導入に革命をもたらしています。このフレームワークは、分散型サービスアーキテクチャの複雑さに対応するように設計されています。Dynamoは、プリフィルGPUとデコードGPU間のKVキャッシュの高速転送を促進し、受信したリクエストを適切なGPUにインテリジェントにルーティングします。また、ユーザーの需要に合わせてセットアップ全体を拡張し、効率的なリソース割り当てとサービスレベル契約の遵守を保証します。フレームワークのPlannerエンジンは、プリフィルフェーズとデコードフェーズ間のリクエストレートのバランスを自動化し、変化するワークロードに適応してGPUリソース構成を最適化します。
NVIDIA GB200 NVL72 NVLinkアーキテクチャは、分散型サービス構成におけるMoEモデルのパフォーマンスを最大化する上で重要な役割を果たします。GB200 NVL72は、GPU間の低レイテンシ・高帯域幅通信を可能にすることで、MoEモデルに不可欠な全対全通信パターンがネットワークの制限によって妨げられることを防ぎます。このアーキテクチャは最大72基のGPUをサポートし、通信速度を大幅に向上させ、幅広いエキスパート並列デコード構成の効率的な運用を可能にします。NVIDIA DynamoとGB200 NVL72の機能を組み合わせることで、MoEモデルのパフォーマンスが向上するだけでなく、従来の高密度モデルの提供においても大きなメリットをもたらし、AIファクトリーのスループット向上と持続的な利益拡大につながります。
最新のニュース
キャタピラー社、NVIDIA の技術を搭載した AI アシスタント搭載ミニショベルを発表
26/3/12 0:00
キャタピラー社は、人工知能(AI)の統合により、小型建設機械に新たな次元を導入しました。
NVIDIA、開発者向け AI ビデオ生成を強化
26/3/12 0:00
NVIDIAは、サンフランシスコで開催されたゲーム開発者会議(GDC)において、RTX GPUとNVIDIA DGX Sparkデスクトップ・スーパーコンピューターを活用したゲーム開発者やアーティスト向けのAIビデオ生成機能を強化することを目的とした一連のアップデートを発表しました。
NVIDIA、Unreal Engine 向け AI コーディングを強化
26/3/12 0:00
エージェント型コードアシスタントは、ゲーム開発スタジオの日常的なワークフローにますます統合されつつあります。



%20(1).webp)
