Generatived（Beta）｜生成AIの最新ニュースとトレンドを提供

NVIDIA、Blackwell GPU Precision向けNVFP4を発表

Generatived

25/6/26 0:00

NVIDIAは、Blackwell GPUアーキテクチャの一部として、新しい4ビット浮動小数点フォーマットであるNVFP4を導入しました。NVFP4は、超低精度フォーマットを使用しながらAI推論タスクにおける数値精度を維持するように設計されています。これは、高精度スケールエンコーディングと2レベルマイクロブロックスケーリング戦略という2つのアーキテクチャイノベーションによって実現されています。これらのイノベーションにより、より正確な値表現が可能になり、量子化誤差が大幅に低減されます。これは、超低精度で最高の精度でBlackwellを効率的にスケーリングしたい開発者にとって非常に重要です。

NVFP4フォーマットは、従来のフォーマットよりも高精度なスケーリング係数を提供し、全体的な丸め誤差を最小限に抑え、4ビットへの量子化時にモデルのインテリジェンスを維持するのに役立ちます。これは、大きな量子化誤差によってパフォーマンスが低下する可能性のある大規模なAIモデルにとって特に重要です。 NVFP4の構造は、16値ブロックごとに共有FP8スケール、テンソルごとに第2レベルのFP32スケーリングを備えており、データのダイナミックレンジへのより局所的な適応を可能にし、モデルの重みやアクティベーションにおける小さいながらも重要な差異を維持します。

モデル性能の点では、NVFP4はモデル精度への影響を最小限に抑えながら、優れた推論性能を実現することが期待されます。これは、様々な評価において、FP8とNVFP4の量子化バージョン間の精度差が最小限であることからも明らかです。さらに、NVFP4のメモリ効率は、モデルメモリフットプリントの削減によって際立っており、FP16と比較して約3.5倍、FP8と比較して約1.8倍の省スペース化を実現しています。これにより、特にテスト時間のスケーリングの課題を考慮すると、NVFP4は大規模なAI推論の導入において魅力的な選択肢となります。

NVFP4をサポートするNVIDIAのBlackwellアーキテクチャも、エネルギー効率の向上に貢献します。このアーキテクチャは液体冷却とFP4演算をサポートしているため、ワットあたりの性能を大幅に向上させることができます。モデルをNVFP4に量子化したい開発者は、NVIDIAのTensorRT Model OptimizerとLLM Compressorを活用できます。これらのツールは、高度な量子化手法を適用するための効率的なワークフローを提供します。AIの需要の高まりに対応するため、成長を続ける推論エコシステムはNVFP4精度を急速に採用しており、様々なフレームワークでNVFP4がサポートされ、事前量子化済みモデルが展開可能です。

ソース：NVIDIA Developer Blog