top of page
Generatived(Beta)|生成AIの最新ニュースとトレンドを提供

NVIDIA、DiffusionGemma活用拡大
Generatived
26/6/18 0:00
NVIDIA(米国カリフォルニア州サンタクララ)は、Google DeepMindが開発したDiffusionGemmaについて、NVIDIAプラットフォーム向け最適化と企業向け展開支援を強化したと発表した。リアルタイムAIアプリケーションにおける推論速度向上を狙う。
同モデルは従来の逐次生成方式とは異なり、1ステップで最大256トークンを並列生成する拡散型アーキテクチャを採用する。Gemma 4ベースの25.2Bパラメータ構成で、推論時には3.8Bパラメータを活用し、高速応答を実現するとしている。
NVIDIAによると、H100 GPUでは毎秒1,000トークン、DGX Sparkでは毎秒150トークン、DGX Stationでは最大毎秒2,000トークンの生成性能を発揮する。応答速度向上に加え、サービングコスト削減や同時接続数拡大にも寄与する見通しという。
同社はHugging FaceやvLLM、NVIDIA NIM、NeMo AutoModelなどでDay 0対応を提供する。企業ユーザーはオンプレミスやクラウド環境で推論やファインチューニングを行い、業務特化型AIシステムの構築を進められるとしている。

