top of page
Generatived(Beta)|生成AIの最新ニュースとトレンドを提供
%20(1).webp)
NVIDIA SlurmをKubernetes統合運用
Generatived
26/4/13 0:00
NVIDIA(米国カリフォルニア州)は、SlurmをKubernetes上で運用する「Slinky slurm-operator」の仕組みを示したとみられる。AI向けGPU基盤の統合運用を実現する狙いがあるとされる。
同技術は、Slurmの各機能をKubernetesのカスタムリソースとして管理し、スケジューラやワーカーをコンテナ化して配置する構成とされる。設定変更の自動反映や高可用性確保により運用効率向上が見込まれるという。
また、監視ツールやGPU管理機能との連携により、ジョブ単位でのリソース可視化や自動スケーリングが可能とされる。ノード更新時も処理中のジョブを維持したまま運用できる点が特徴とみられる。
同社の環境では、8,000基超のGPUを用いたクラスタで同仕組みが運用されているとされる。Kubernetesとの統合により、AI学習基盤の一元管理と運用負荷の低減が進むとの見方が示されている。

