Generatived（Beta）｜生成AIの最新ニュースとトレンドを提供

NVIDIA、LLM 効率化のための Grace Tech を発表

Generatived

25/9/9 0:00

大規模言語モデル（LLM）は人工知能の限界を押し広げていますが、その巨大なサイズが推論効率の課題となっています。例えば、Llama 3 70BモデルとLlama 4 Scout 109Bモデルは、膨大なメモリ容量を必要とし、多くの場合GPUで利用可能なメモリ容量を超えます。これらのモデルは、半精度でロードされた場合、それぞれ約140GBと218GBのメモリを必要とします。キーバリュー（KV）キャッシュなどのデータ構造にも追加のメモリが必要であり、コンテキスト長とバッチサイズに応じて大幅に増加する可能性があります。

こうしたメモリ制約に対処するため、NVIDIAはNVLink-C2Cインターコネクトを搭載したGrace BlackwellやGrace Hopperなどのアーキテクチャを導入しました。このテクノロジは、CPUとGPU間のメモリコヒーレントな接続を提供し、共有メモリアドレス空間を可能にします。この統合メモリシステムにより、CPUとGPUの両方が明示的なデータ転送を必要とせずに同じデータにアクセスして処理できるようになり、従来のGPUメモリ制限を超える大規模なデータセットやモデルの処理が容易になります。

NVIDIA GH200 Grace Hopper Superchipのようなプラットフォームにモデルをデプロイすると、GPUの高帯域幅メモリとCPUのLPDDRメモリの両方をシームレスに利用できます。この統合により利用可能なメモリ量が大幅に増加し、メモリ不足エラーに遭遇することなく、より大規模なモデルやデータセットを扱うことが可能になります。

実際には、Llama 3 70Bのようなモデルをメモリ容量の限られたGPUにロードしようとすると、メモリ不足エラーが発生する可能性があります。しかし、GH200のようなシステムのマネージドメモリ割り当てと統合メモリアーキテクチャを活用することで、GPUは追加のCPUメモリにアクセスできるようになります。このアプローチにより、開発者はGPUメモリの物理的限界を超えるモデルを扱うことができ、手動によるデータ転送の必要性を回避し、最先端のLLMを高度なハードウェアプラットフォーム上で実行するプロセスを簡素化できます。

ソース：NVIDIA Developer Blog