進化し続ける生成AIの分野では、拡散モデルがテキストプロンプトから高品質の画像を作成する重要な役割を果たしている。これらのモデルは、その機能にもかかわらず、反復的なノイズ除去に必要なリソースを大量に消費する推論プロセスにより、課題に直面している。これに対抗するために、大手テクノロジー企業は、最新のソフトウェア リリースで強化された量子化ツールキットを導入した。これは、画質を損なうことなくハードウェアへの拡散モデルの展開を加速するように設計されている。

新しいツールキットは改良された8ビット量子化を提供しており、これはすぐに生成AI企業、特にクリエーティブなビデオ編集ツールを専門とする企業にとって推奨されるソリューションになった。同社のハイエンドGPUでのベンチマークテストでは、拡散モデルのINT8およびFP8量子化レシピが、生成された画像の忠実度を維持しながら、従来の方法の最大1.95倍の速度を達成できることが示された。この進歩により、生成AIアプリケーションの速度が向上するだけでなく、推論に関連するコストも削減される。

ただし、標準的なトレーニング後量子化(PTQ)手法は、独自のマルチタイムステップノイズ除去プロセスのため、拡散モデルには不適切であることが証明されている。これに対処するために、同社は各モデルレイヤーの量子化パラメータを調整する高度なチューニング パイプラインを開発し、高品質の画像出力を保証した。Percentile Quantと呼ばれるこのアプローチは、ステップ範囲の最も重要なパーセンタイルに焦点を当てることで従来のキャリブレーション方法から分岐し、元の画像の豊富な詳細を保存する。

生成AIアプリケーションのパフォーマンス向上に対する同社の取り組みは、拡散モデルのさまざまなバージョンを最適化することを目的とした、カスタマイズされたソリューションに明らかだ。量子化プロセスを微調整することで、オリジナルのFP16の精度で生成された画像にほぼ一致する画像を生成することに成功し、生成AI空間における効率と品質の新しい基準を確立した。

ソース:NVIDIA Developer Blog