Generatived(Beta)|生成AIの最新ニュースとトレンドを提供

NVIDIA、LLMパフォーマンス強化のためのNVFP4を発表
Generatived
25/12/10 0:00
NVIDIA Blackwell GPUにおける大規模言語モデル(LLM)のパフォーマンスを向上させるため、新しいKVフォーマットであるNVFP4が導入されました。NVFP4は、KVキャッシュメモリのフットプリントを最大50%削減するように設計されており、LLMのコンテキストバジェットを実質的に倍増させます。これにより、より大きなバッチサイズとより長いシーケンスを処理でき、様々なベンチマークにおいて精度の低下は1%未満に抑えられます。
KVキャッシュはLLMの重要なコンポーネントであり、キーと値のテンソルを保存することで、トークン生成時の冗長な計算を回避します。NVFP4はKVキャッシュを16ビットから4ビット精度に量子化することで、メモリ容量と帯域幅のボトルネックを解消し、より効率的な推論ワークロードを実現します。
NVFP4 KVキャッシュの量子化はNVIDIA TensorRT Model Optimizerによって実装されており、アテンションおよびコンテキスト行列の演算前にNVFP4からFP8への逆量子化が必要となります。この最適化は、トレーニング後量子化(PTQ)と量子化を考慮したトレーニング(QAT)の両方をサポートしており、推論タスクにおける大幅なパフォーマンス向上が期待できます。
NVFP4 KVキャッシュはLLMパフォーマンスに大きく貢献し、TTFT(Time-to-First-Token)レーテンシーが最大3倍向上し、キャッシュヒット率も向上します。この効率性により、高帯域幅メモリ(HBM)をより効果的に活用できるようになり、NVIDIA推論スタック内の他の共同設計コンポーネントを補完します。量子化にもかかわらず、NVFP4は高い精度レベルを維持し、BF16およびFP8ベースラインと比較して1%未満の損失に抑えることで、複雑なタスクでも堅牢なパフォーマンスを実現します。
最新のニュース
高需要のAIタスク向けKimi K2.5モデルを公開
26/2/6 0:00
Kimiは、AIワークフロー、チャット、推論、コーディング、数学など、様々な高需要タスクで優れた性能を発揮するように設計された、同社のモデルファミリーの最新モデルであるKimi K2.5を発表しました。
AI技術研究で言語モデルの隠れた脆弱性が明らかに
26/2/6 0:00
新たな研究により、AIシステムの完全性維持に不可欠な、オープンウェイト言語モデルに潜む脆弱性を特定する革新的な手法が発表されました。
NVIDIA、インテリジェントなドキュメント処理パイプラインを発表
26/2/6 0:00
NVIDIAは、複雑なPDFを高精度に処理できる、新しいインテリジェントなドキュメント処理パイプラインを発表しました。
Copyright © 2024 Generatived - All right Reserved.
ニュース
Generatived は、Generative AIに特化した情報やトレンドをお届けするサービスです。大きく変わりゆく世界の情報を全力でお届けします。
最新のニュース
高需要のAIタスク向けKimi K2.5モデルを公開
26/2/6 0:00
Kimiは、AIワークフロー、チャット、推論、コーディング、数学など、様々な高需要タスクで優れた性能を発揮するように設計された、同社のモデルファミリーの最新モデルであるKimi K2.5を発表しました。
AI技術研究で言語モデルの隠れた脆弱性が明らかに
26/2/6 0:00
新たな研究により、AIシステムの完全性維持に不可欠な、オープンウェイト言語モデルに潜む脆弱性を特定する革新的な手法が発表されました。
NVIDIA、インテリジェントなドキュメ ント処理パイプラインを発表
26/2/6 0:00
NVIDIAは、複雑なPDFを高精度に処理できる、新しいインテリジェントなドキュメント処理パイプラインを発表しました。



%20(1).webp)
%20(1).webp)

