Generatived（Beta）｜生成AIの最新ニュースとトレンドを提供

NVIDIA が LLM 向けスマート GPU スケジューリングを導入

Generatived

26/3/3 0:00

大規模言語モデル（LLM）を導入する組織は、リソース需要が大きく変動する推論ワークロードの管理という課題に直面しています。小規模なモデルではGPUメモリは最小限で済む一方、700億を超えるパラメータを持つモデルでは複数のGPUが必要になる場合があります。この差異は、GPUリソースの活用不足、計算コストの増大、そして予測不可能な応答時間につながることがよくあります。

問題はGPU上のワークロード数を増やすだけにとどまらず、スマートなスケジューリングにまで及びます。推論ワークロードのパターンを認識するオーケストレーションシステムがなければ、企業はリソースの無駄につながるオーバープロビジョニングと、パフォーマンスを低下させる可能性のあるアンダープロビジョニングのどちらかを選択せざるを得なくなります。

NVIDIAのNIMは、推論エンジンをコンテナ化されたマイクロサービスとしてパッケージ化することでこの問題に対処します。これにより、モデルのデプロイメントが標準化されるだけでなく、スループットとレーテンシーも向上します。これらのマイクロサービスには、事前構成された推論ランタイム、業界標準のAPI、そしてモデル最適化技術が付属しています。NVIDIAのエンタープライズサポートにより、本番環境での使用が可能で、セキュリティとコンプライアンスが確保された設計となっています。

GPU の利用率を最大化するために、NVIDIA Run:ai はワークロードの挙動に適応するインテリジェントなスケジューリング戦略を導入しています。これには、推論優先の優先順位付け、完全なメモリ分離を備えた GPU フラクション、動的メモリ管理が含まれます。これらの戦略により、より効率的なリソース管理が可能になり、GPU のポテンシャルを最大限に引き出しながら、計算コストを削減できます。

ベンチマーク結果では、GPU利用率が大幅に向上していることが示されました。スループットの低下を最小限に抑えながら、GPU利用率は最大2倍に向上し、動的フラクションを用いた高負荷同時実行時にはスループットが最大1.4倍向上しました。さらに、GPUメモリスワップ技術は、ゼロからのコールドスタートと比較して、最初のリクエストのレーテンシーを44～61倍も大幅に削減することが示されています。

これらの戦略の導入を検討している組織向けに、NVIDIA は NIM と NVIDIA Run:ai の活用に関する実践的なガイダンスを提供しています。これには、インテリジェントなスケジューリングときめ細かな GPU 制御による AI ワークロードの管理、Kubernetes ネイティブのトラフィック分散と自動スケーリングの活用などが含まれます。これらのアップデートは、AI アプリケーションを扱うチームのアクセス制御、エンドポイント管理、可視性を強化することを目的としています。

ソース：NVIDIA Developer Blog