Generatived（Beta）｜生成AIの最新ニュースとトレンドを提供

NVIDIA TensorRT、モデルオプティマイザーでAIを強化

Generatived

25/8/5 0:00

量子化は、AIモデルの推論性能を向上させるために開発者にとって不可欠な技術となっています。モデルの精度を下げることで、再学習を必要とせずに、レーテンシー、スループット、メモリ効率を向上させることができます。現在、モデルは一般的にFP16またはBF16で学習されており、一部の高度なモデルではFP8が使用されています。量子化をFP4などの形式にまで拡張することで、さらに大幅な効率向上が期待できます。

NVIDIAのTensorRT Model Optimizerトレーニング後量子化（PTQ）フレームワークは、これらの最適化を適用するための柔軟でモジュール化されたソリューションを提供します。NVIDIA Blackwell GPU向けにカスタマイズされたNVFP4を含む幅広いフォーマットをサポートしています。このフレームワークには、SmoothQuant、活性化を考慮した重み量子化（AWQ）、AutoQuantizeなどのキャリブレーション手法が組み込まれており、量子化結果を向上させます。さらに、Model Optimizer PTQはエコシステムとの互換性を考慮して設計されており、ネイティブPyTorch、 Hugging Face、NeMo、Megatron-LMチェックポイントをサポートし、NVIDIA TensorRT-LLM、vLLM、SGLangなどの推論フレームワークと容易に統合できます。

本投稿では、PTQ技術についてさらに詳しく説明し、Model Optimizer PTQを用いて高精度を維持しながらAIモデルを圧縮する方法を詳しく説明します。これにより、ユーザーエクスペリエンスが向上するだけでなく、AIアプリケーションのパフォーマンスも向上します。ニューラルネットワークは、学習前と学習後のプロセスを通じて微調整された値を持つ層で構成されています。重み、活性化、バイアスとして保存されるこれらの値は、最初は完全な精度で学習され、8ビットや4ビットなどの低精度形式に量子化することで、値をより小さな表現可能な範囲に圧縮することができます。

量子化プロセスでは、対象データ型の範囲に合わせて値を調整しますが、これは値の粒度に影響を与える可能性があります。例えば、FP16からFP8に量子化すると、値の詳細度が低下し、解像度が低下します。Model Optimizer PTQライブラリは、モデルの推論性能を向上させる高度な最適化手法を提供しており、様々な推論フレームワークに導入できます。

モデルオプティマイザーは様々な量子化フォーマットをサポートし、特定のモデルやワークロードに適したフォーマットとキャリブレーションを選択できるよう、複数のキャリブレーション手法を提供しています。これらの手法には、最小最大キャリブレーション、SmoothQuant、AWQ、AutoQuantizeなどがあります。各手法にはそれぞれ長所があり、量子化モデルの最終的な精度に影響を与えるため、ワークロードの感度とレーテンシー要件を考慮して検討する必要があります。

まとめると、量子化はモデル推論を強化する強力な手法であり、成長を続けるオープンソース技術のエコシステムに支えられています。NVIDIAのTensorRT Model Optimizer PTQフレームワークは、精度を維持しAI導入を改善するモデル圧縮のための包括的なツールキットを開発者に提供します。開発者は、Jupyter Notebookのチュートリアルを参照したり、事前量子化チェックポイントを試したりすることで、これらのメリットを直接体験できます。

ソース：NVIDIA Developer Blog