NVIDIA は、ランタイムとモデルの最適化を改善してディープラーニング推論を強化するように設計されたAPIエコシステムの最新版である NVIDIA TensorRT を発表しました。新しいリリースでは、インストールが簡素化され、使いやすさが向上し、より幅広い AI モデルがサポートされ、実稼働アプリケーションで効率的な低レイテンシと高スループットのパフォーマンスが保証されます。

開発者は、更新された Debian および RPM メタパッケージにより、`apt-get install tensorrt` や `pip install tensorrt` などのコマンドを使用してセットアップが簡単になり、TensorRT 10.0 のより合理化されたエクスペリエンスの恩恵を受けることができるようになりました。このリリースでは、Debug Tensors APIも導入されています。これは、テンソルの値が書き込まれるたびに、テンソルの詳細を含むコールバック関数を呼び出すことで、グラフ内の問題を正確に特定するのに役立ちます。ONNX パーサーのエラー レポートの強化や、バージョンとハードウェアの互換性を含む Windows 開発の大幅なアップグレードも、この更新の一部です。

TensorRT 10.0 のパフォーマンス強化の目玉は、ブロック量子化による INT4 重みのみの量子化 (WoQ) です。これにより、メモリが限られた GPU でもメモリを効率的に使用できます。新しいバージョンでは、最大 99% の圧縮を実現できる重みを取り除いたエンジンもサポートされており、再構築することなく実行時にエンジンに重みを再調整できます。さらに、実行時の割り当て戦略を指定できるようになり、重みストリーミング機能により、GPU メモリ容量を超える大規模なモデルを実行できます。

これらの機能を補完するために、NVIDIA は TensorRT Model Optimizer 0.11 もリリースしました。これは、量子化、スパース性、蒸留などのトレーニング後およびトレーニングインザループのモデル最適化を提供するライブラリです。このツールは、複雑さを軽減し、推論速度を向上させることで、ディープラーニング モデルの展開を簡素化することを目的としています。Model Optimizer はさまざまなトレーニング フレームワークと統合されているため、開発者はさまざまな環境で NVIDIA のプラットフォームを利用できます。さらに、Nsight Deep Learning Designer 2024.1 の導入により、DNN を最適化するための統合開発環境が提供され、最適なパフォーマンスを得るためにモデルを微調整するための視覚的なツールが提供されます。

ソース:NVIDIA Developer Blog