top of page

Generatived(Beta)|生成AIの最新ニュースとトレンドを提供

logo.png

NVIDIA、Dynamo で MoE モデル推論を強化

Generatived

25/6/10 0:00

大規模言語モデル(LLM)の最新の進歩は、DeepSeek R1、Llama 4、Qwen3などのモデルに代表されるMixture of Experts(MoE)アーキテクチャへの移行を特徴としています。これらのMoEモデルは、推論時に一部の特殊パラメータ(つまり「エキスパート」)のみをアクティブ化することで動作し、計算負荷とコストを大幅に削減します。これらのモデルをNVIDIAのDynamo推論最適化とGB200 NVL72アーキテクチャの広範な領域と組み合わせることで、推論効率を大幅に向上させることができます。この相乗効果は特にAIファクトリーにとって有益であり、ユーザーエクスペリエンスの質を損なうことなく、GPUあたりのユーザーリクエスト処理能力を向上させることができます。

GPUパフォーマンスシミュレータを用いたハードウェア構成の広範な評価を含む最近の研究は、分解とモデルの並列性がMoEスループットに与える影響を明らかにしました。2018年にGoogle研究者がBERTモデルを開発して以来、モデルの重みは指数関数的に増加し、生成推論のスループットとインタラクティブ性への期待が高まっています。これに対処するため、現在ではモデルは複数のGPUに分割され、テンソル並列性(TP)、パイプライン並列性(PP)、データ並列性(DP)などの並列化技術が採用されています。推論のプレフィルフェーズとデコードフェーズを異なるGPUに分離する分散型サービングは、リソース利用率を最適化し、フェーズごとに異なるサービスレベル契約を満たす方法として登場しました。

NVIDIA Dynamoは、分散型推論サービスフレームワークによってMoEモデルの導入に革命をもたらしています。このフレームワークは、分散型サービスアーキテクチャの複雑さに対応するように設計されています。Dynamoは、プリフィルGPUとデコードGPU間のKVキャッシュの高速転送を促進し、受信したリクエストを適切なGPUにインテリジェントにルーティングします。また、ユーザーの需要に合わせてセットアップ全体を拡張し、効率的なリソース割り当てとサービスレベル契約の遵守を保証します。フレームワークのPlannerエンジンは、プリフィルフェーズとデコードフェーズ間のリクエストレートのバランスを自動化し、変化するワークロードに適応してGPUリソ​​ース構成を最適化します。

NVIDIA GB200 NVL72 NVLinkアーキテクチャは、分散型サービス構成におけるMoEモデルのパフォーマンスを最大化する上で重要な役割を果たします。GB200 NVL72は、GPU間の低レイテンシ・高帯域幅通信を可能にすることで、MoEモデルに不可欠な全対全通信パターンがネットワークの制限によって妨げられることを防ぎます。このアーキテクチャは最大72基のGPUをサポートし、通信速度を大幅に向上させ、幅広いエキスパート並列デコード構成の効率的な運用を可能にします。NVIDIA DynamoとGB200 NVL72の機能を組み合わせることで、MoEモデルのパフォーマンスが向上するだけでなく、従来の高密度モデルの提供においても大きなメリットをもたらし、AIファクトリーのスループット向上と持続的な利益拡大につながります。

この記事を共有:

最新のニュース
キャタピラー社、NVIDIA の技術を搭載した AI アシスタント搭載ミニショベルを発表

キャタピラー社、NVIDIA の技術を搭載した AI アシスタント搭載ミニショベルを発表

26/3/12 0:00

キャタピラー社は、人工知能(AI)の統合により、小型建設機械に新たな次元を導入しました。

NVIDIA、開発者向け AI ビデオ生成を強化

NVIDIA、開発者向け AI ビデオ生成を強化

26/3/12 0:00

NVIDIAは、サンフランシスコで開催されたゲーム開発者会議(GDC)において、RTX GPUとNVIDIA DGX Sparkデスクトップ・スーパーコンピューターを活用したゲーム開発者やアーティスト向けのAIビデオ生成機能を強化することを目的とした一連のアップデートを発表しました。

NVIDIA、Unreal Engine 向け AI コーディングを強化

NVIDIA、Unreal Engine 向け AI コーディングを強化

26/3/12 0:00

エージェント型コードアシスタントは、ゲーム開発スタジオの日常的なワークフローにますます統合されつつあります。

ベリサーブ新AIソ�フトテスト支援

ベリサーブ新AIソフトテスト支援

26/3/12 0:00

ベリサーブ(東京都千代田区)は、生成AIを用いた新しいソフトウェアテスト支援プロダクト「TESTRA」のPoC版を2026年4月より提供開始すると発表した。

Copyright © 2024 Generatived - All right Reserved.

この記事を共有:

この記事を共有:

Generatived AI Logo

Generatived は、Generative AIに特化した情報やトレンドをお届けするサービスです。大きく変わりゆく世界の情報を全力でお届けします。

  • Facebook
  • X

フォローをお願いします

言語

最新のニュース
キャタピラー社、NVIDIA の技術を搭載した AI アシスタント搭載ミニショベルを発表

キャタピラー社、NVIDIA の技術を搭載した AI アシスタント搭載ミニショベルを発表

26/3/12 0:00

キャタピラー社は、人工知能(AI)の統合により、小型建設機械に新たな次元を導入しました。

NVIDIA、開発者向け AI ビデオ生成を強化

NVIDIA、開発者向け AI ビデオ生成を強化

26/3/12 0:00

NVIDIAは、サンフランシスコで開催されたゲーム開発者会議(GDC)において、RTX GPUとNVIDIA DGX Sparkデスクトップ・スーパーコンピューターを活用したゲーム開発者やアーティスト向けのAIビデオ生成機能を強化することを目的とした一連のアップデートを発表しました。

NVIDIA、Unreal Engine 向け AI コーディングを強化

NVIDIA、Unreal Engine 向け AI コーディングを強化

26/3/12 0:00

エージェント型コードアシスタントは、ゲーム開発スタジオの日常的なワークフローにますます統合されつつあります。

ベリサーブ新AIソフトテスト支援

ベリサーブ新AIソフトテスト支援

26/3/12 0:00

ベリサーブ(東京都千代田区)は、生成AIを用いた新しいソフトウェアテスト支援プロダクト「TESTRA」のPoC版を2026年4月より提供開始すると発表した。

bottom of page