Generatived（Beta）｜生成AIの最新ニュースとトレンドを提供

NVIDIA、LLM向けKVキャッシュオフロードを発表

Generatived

25/9/22 0:00

AIモデルが複雑化するにつれ、推論中のキーバリュー（KV）キャッシュの管理がますます重要になっています。KVキャッシュは、GPT-OSSやDeepSeek-R1のような大規模言語モデル（LLM）にとって不可欠です。入力プロンプトの処理に不可欠なアテンションデータを格納するためです。しかし、プロンプトが長くなるにつれてキャッシュサイズが大きくなるため、限られた高価なGPUメモリに負担がかかり、ボトルネックが発生する可能性があります。

この問題に対処するため、NVIDIA Dynamoの最近のアップデートでは、KVキャッシュオフロードが導入されました。これにより、キャッシュをGPUメモリからよりコスト効率の高いストレージソリューションに移動できます。このプロセスは、低レイテンシ転送ライブラリであるNVIDIA NIXLによって実現され、推論プロセスを中断することなくKVキャッシュを迅速に移動できます。オフロードはGPUメモリの需要を削減するだけでなく、コンテキストウィンドウの延長とユーザー同時実行性の向上を可能にし、最終的には運用コストの削減につながります。

KVキャッシュオフロードのメリットは、推論サービスプロバイダーにとって非常に大きなものです。 KVキャッシュオフロードは、プロンプトのサイズを犠牲にすることなく、拡張コンテキストを持つモデルのサポートを可能にし、追加のGPUの必要性を減らし、KVキャッシュの高コストな再計算を回避します。これにより、応答時間が短縮され、ユーザーエクスペリエンスが向上します。プロバイダーは、より高いスループットとトークンあたりのコスト削減を実現できるため、サービスのスケーラビリティと効率性が向上します。

実際に、ストレージプロバイダーはKVキャッシュオフロードを活用してサービスを強化しています。例えば、VastはNVIDIA Dynamoとの高性能統合を実証し、驚異的なスループット率を達成し、ストレージがボトルネックになっていないことを確認しました。同様に、WEKAのラボテストでは、同社のAugmented Memory Gridがメモリに近い速度でKVキャッシュをGPUにストリーミングし、推論ワークロードのトークンスループットを最適化できることが示されました。

全体として、KVキャッシュオフロードは、大規模な生成AIアプリケーションにおける推論の課題を管理するためのスケーラブルなソリューションを提供します。コストを削減し、応答性を向上させることで、AIモデルのより広範な展開とより効率的な利用を可能にします。

ソース：NVIDIA Developer Blog