Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo
%20(1).webp)
NVIDIA cho phép lập lịch Slurm trên các cụm Kubernetes.
Generatived
0:00 13/4/26
NVIDIA (California) đã mô tả một phương pháp để chạy Slurm trên Kubernetes bằng cách sử dụng Slinky slurm-operator. Phương pháp này được định vị như một cách để thống nhất việc quản lý cơ sở hạ tầng GPU.
Hệ thống này ánh xạ các thành phần của Slurm vào các tài nguyên Kubernetes, triển khai các bộ lập lịch và các worker dưới dạng các pod container hóa. Việc cập nhật cấu hình tự động và tính khả dụng cao được nhấn mạnh.
Việc tích hợp với các công cụ giám sát và quản lý GPU cho phép khả năng hiển thị ở cấp độ khối lượng công việc và tự động mở rộng quy mô. Các hoạt động bảo trì được cho là diễn ra mà không làm gián đoạn các công việc đang hoạt động.
Các triển khai quy mô lớn được báo cáo vượt quá 8.000 GPU, hỗ trợ các khối lượng công việc huấn luyện AI. Việc tích hợp này được coi là cải thiện hiệu quả hoạt động và đơn giản hóa việc quản lý cụm.
Chia sẻ bài viết này:

