Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

Hướng dẫn của NVIDIA giúp nâng cao hiệu quả sử dụng GPU trong Kubernetes.
Generatived
0:00 27/3/26
Trong môi trường Kubernetes, sự không phù hợp giữa yêu cầu của mô hình và kích thước GPU thường dẫn đến sự thiếu hiệu quả, đặc biệt khi các mô hình nhẹ như nhận dạng giọng nói tự động (ASR) hoặc chuyển văn bản thành giọng nói (TTS) chiếm toàn bộ GPU mặc dù chỉ cần một phần nhỏ dung lượng của nó. Tình huống phổ biến này dẫn đến việc sử dụng không hiệu quả các tài nguyên tính toán đắt tiền, thúc đẩy nhu cầu về các chiến lược để tối ưu hóa mật độ cụm và phục vụ nhiều người dùng hơn mà không cần thêm phần cứng.
Một hướng dẫn đã được phát hành, trình bày chi tiết việc triển khai và đánh giá hiệu năng của các chiến lược phân vùng GPU, bao gồm cả GPU đa phiên bản (MIG) của NVIDIA và các kỹ thuật phân chia thời gian. Các phương pháp này nhằm mục đích tận dụng tối đa tài nguyên tính toán, tập trung vào việc duy trì độ tin cậy cao và đáp ứng các yêu cầu latency nghiêm ngặt. Hướng dẫn sử dụng một hệ thống AI giọng nói cấp độ sản xuất làm nền tảng thử nghiệm để chứng minh cách kết hợp các mô hình có thể tối đa hóa lợi tức đầu tư vào cơ sở hạ tầng.
Plugin thiết bị NVIDIA cho Kubernetes thường hiển thị GPU dưới dạng tài nguyên số nguyên, dẫn đến sự thiếu hiệu quả khi các mô hình ngôn ngữ lớn (LLM) yêu cầu tính toán chuyên dụng, trong khi các mô hình hỗ trợ chỉ sử dụng một phần dung lượng của GPU. Để giải quyết vấn đề này, hướng dẫn đề xuất phá vỡ mối quan hệ một-đối-một giữa các pod và GPU. Hai chiến lược chính để phân vùng GPU được đánh giá: phân vùng dựa trên phần mềm thông qua phân chia thời gian và MPS, và phân vùng dựa trên phần cứng bằng cách sử dụng MIG. Mỗi phương pháp đều có ưu điểm và hạn chế riêng, trong đó MIG cung cấp chất lượng dịch vụ nghiêm ngặt thông qua cách ly ở cấp độ phần cứng.
Một thiết lập thử nghiệm sử dụng quy trình xử lý giọng nói AI đã được triển khai để xác thực các chiến lược phân vùng này. Quy trình này, bao gồm các khối lượng công việc ASR, TTS và LLM, được sử dụng để đánh giá tác động của các phương pháp phân vùng khác nhau đến hiệu quả và khả năng phản hồi của hệ thống. Kết quả cho thấy việc hợp nhất ASR và TTS trên một GPU duy nhất có thể duy trì latency trong khi giải phóng tài nguyên tính toán cho các phiên bản LLM bổ sung. Phân vùng MIG nổi lên như phương pháp được ưu tiên cho môi trường sản xuất, mang lại hiệu quả và độ ổn định cao nhất, trong khi phân vùng theo thời gian được khuyến nghị cho môi trường phát triển hoặc các ứng dụng có độ đồng thời thấp.
Hướng dẫn kết thúc bằng các khuyến nghị về việc triển khai phân vùng và mở rộng GPU với NVIDIA NIM để tận dụng tối đa khối lượng công việc ASR, TTS và LLM, từ đó nâng cao hiệu suất cơ sở hạ tầng và lợi tức đầu tư.
Chia sẻ bài viết này:
Tin tức mới nhất
AndTech ra mắt các khóa học mới về Python và Trí tuệ nhân tạo.
0:00 27/3/26
AndTech (thành phố Kawasaki, tỉnh Kanagawa) đang ra mắt một khóa học mới kết hợp lập trình Python với Trí tuệ Nhân tạo (AI) và Trí tuệ Vật liệu (MI).
DMM.com mở rộng quá trình chuyển đổi sang Google Cloud.
0:00 27/3/26
Datadog(Tokyo) thông báo rằng DMM.com đã chuyển đổi cơ sở hạ tầng vận hành cho dịch vụ "DMM TV" sang Google Cloud, mở rộng việc sử dụng nền tảng Datadog .
Công cụ CLI DocBase mới được Clay phát hành
0:00 27/3/26
Claude (Thành phố Musashino, Tokyo) đã phát hành "DocBase CLI", cho phép vận hành trực tiếp công cụ chia sẻ thông tin "DocBase" từ các công cụ lập trình AI và các quy trình CI/CD .
Copyright © 2024 Generatived - All right Reserved.
Chia sẻ bài viết này:
Chia sẻ bài viết này:
Danh mục
Tin tức
AI và luật/hệ thống/kinh tế/xã hội
Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.
Tin tức mới nhất
AndTech ra mắt các khóa học mới về Python và Trí tuệ nhân tạo.
0:00 27/3/26
AndTech (thành phố Kawasaki, tỉnh Kanagawa) đang ra mắt một khóa học mới kết hợp lập trình Python với Trí tuệ Nhân tạo (AI) và Trí tuệ Vật liệu (MI).
DMM.com mở rộng quá trình chuyển đổi sang Google Cloud.
0:00 27/3/26
Datadog(Tokyo) thông báo rằng DMM.com đã chuyển đổi cơ sở hạ tầng vận hành cho dịch vụ "DMM TV" sang Google Cloud, mở rộng việc sử dụng nền tảng Datadog .
Công cụ CLI DocBase mới được Clay phát hành
0:00 27/3/26
Claude (Thành phố Musashino, Tokyo) đã phát hành "DocBase CLI", cho phép vận hành trực tiếp công cụ chia sẻ thông tin "DocBase" từ các công cụ lập trình AI và các quy trình CI/CD .




%20(1).webp)

