Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

Hướng dẫn của NVIDIA giúp nâng cao hiệu quả sử dụng GPU trong Kubernetes.

Generatived

0:00 27/3/26

Trong môi trường Kubernetes, sự không phù hợp giữa yêu cầu của mô hình và kích thước GPU thường dẫn đến sự thiếu hiệu quả, đặc biệt khi các mô hình nhẹ như nhận dạng giọng nói tự động (ASR) hoặc chuyển văn bản thành giọng nói (TTS) chiếm toàn bộ GPU mặc dù chỉ cần một phần nhỏ dung lượng của nó. Tình huống phổ biến này dẫn đến việc sử dụng không hiệu quả các tài nguyên tính toán đắt tiền, thúc đẩy nhu cầu về các chiến lược để tối ưu hóa mật độ cụm và phục vụ nhiều người dùng hơn mà không cần thêm phần cứng.

Một hướng dẫn đã được phát hành, trình bày chi tiết việc triển khai và đánh giá hiệu năng của các chiến lược phân vùng GPU, bao gồm cả GPU đa phiên bản (MIG) của NVIDIA và các kỹ thuật phân chia thời gian. Các phương pháp này nhằm mục đích tận dụng tối đa tài nguyên tính toán, tập trung vào việc duy trì độ tin cậy cao và đáp ứng các yêu cầu latency nghiêm ngặt. Hướng dẫn sử dụng một hệ thống AI giọng nói cấp độ sản xuất làm nền tảng thử nghiệm để chứng minh cách kết hợp các mô hình có thể tối đa hóa lợi tức đầu tư vào cơ sở hạ tầng.

Plugin thiết bị NVIDIA cho Kubernetes thường hiển thị GPU dưới dạng tài nguyên số nguyên, dẫn đến sự thiếu hiệu quả khi các mô hình ngôn ngữ lớn (LLM) yêu cầu tính toán chuyên dụng, trong khi các mô hình hỗ trợ chỉ sử dụng một phần dung lượng của GPU. Để giải quyết vấn đề này, hướng dẫn đề xuất phá vỡ mối quan hệ một-đối-một giữa các pod và GPU. Hai chiến lược chính để phân vùng GPU được đánh giá: phân vùng dựa trên phần mềm thông qua phân chia thời gian và MPS, và phân vùng dựa trên phần cứng bằng cách sử dụng MIG. Mỗi phương pháp đều có ưu điểm và hạn chế riêng, trong đó MIG cung cấp chất lượng dịch vụ nghiêm ngặt thông qua cách ly ở cấp độ phần cứng.

Một thiết lập thử nghiệm sử dụng quy trình xử lý giọng nói AI đã được triển khai để xác thực các chiến lược phân vùng này. Quy trình này, bao gồm các khối lượng công việc ASR, TTS và LLM, được sử dụng để đánh giá tác động của các phương pháp phân vùng khác nhau đến hiệu quả và khả năng phản hồi của hệ thống. Kết quả cho thấy việc hợp nhất ASR và TTS trên một GPU duy nhất có thể duy trì latency trong khi giải phóng tài nguyên tính toán cho các phiên bản LLM bổ sung. Phân vùng MIG nổi lên như phương pháp được ưu tiên cho môi trường sản xuất, mang lại hiệu quả và độ ổn định cao nhất, trong khi phân vùng theo thời gian được khuyến nghị cho môi trường phát triển hoặc các ứng dụng có độ đồng thời thấp.

Hướng dẫn kết thúc bằng các khuyến nghị về việc triển khai phân vùng và mở rộng GPU với NVIDIA NIM để tận dụng tối đa khối lượng công việc ASR, TTS và LLM, từ đó nâng cao hiệu suất cơ sở hạ tầng và lợi tức đầu tư.

Nguồn: Blog nhà phát triển NVIDIA

Chia sẻ bài viết này:

Tin tức mới nhất

Ippu Senkin mở rộng trợ lý AI cho Seiwa

0:00 7/7/26

Ippu Senkin vừa công bố phiên bản mở rộng của trợ lý AI tạo sinh cài đặt tại chỗ được triển khai tại Hợp tác xã Tín dụng Seiwa.

đọc thêm

Hmcomm ký kết thỏa thuận cấp phép Voice Digest với BPO

0:00 7/7/26

Hmcomm vừa công bố thỏa thuận cấp phép hệ thống tóm tắt cuộc gọi Voice Digest của mình với một nhà cung cấp dịch vụ thuê ngoài quy trình kinh doanh (BPO) lớn trong nước.

đọc thêm

Hitachi Systems nâng cấp WAN của Traveler với các tính năng AI.

0:00 7/7/26

Hitachi Systems vừa công bố những cải tiến dựa trên trí tuệ nhân tạo (AI) cho nền tảng quản lý chi phí Traveler'sWAN của mình

đọc thêm

Dmelt hợp tác với Đại học Tokyo Gakugei trong lĩnh vực giáo dục.

0:00 6/7/26

Dmelt vừa công bố thỏa thuận hợp tác nghiên cứu với Đại học Tokyo Gakugei để phát triển mô hình giáo dục thế hệ mới tập trung vào định hướng nghề nghiệp trong kỷ nguyên chuyển đổi trí tuệ nhân tạo (AI).

đọc thêm

Chia sẻ bài viết này:

Danh mục

Trình nâng cao hình ảnh AI

Trình tạo mã AI

Quản lý tác vụ AI

Không có mã/mã thấp

Trình tạo thiết kế đồ họa AI

Trình tạo minh họa/nghệ thuật AI

Tất cả công cụ

Tin tức

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI sáng tạo

Hướng dẫn ứng dụng AI cơ bản

Hồ sơ công ty

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng trang web

Công ty điều hành

Hãy theo dõi chúng tôi

Ngôn ngữ

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Hãy theo dõi chúng tôi

Ngôn ngữ

Danh mục

Tất cả công cụ

Quản lý tác vụ AI

Trình tạo thiết kế đồ họa AI

Không có mã/mã thấp

Trình tạo mã AI

Trình nâng cao hình ảnh AI

Trình tạo minh họa/nghệ thuật AI

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI tạo ra

Hướng dẫn ứng dụng AI cơ bản

Tin tức

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng của trang web

Công ty điều hành

Hồ sơ công ty

Tin tức mới nhất

Ippu Senkin mở rộng trợ lý AI cho Seiwa

0:00 7/7/26

Ippu Senkin vừa công bố phiên bản mở rộng của trợ lý AI tạo sinh cài đặt tại chỗ được triển khai tại Hợp tác xã Tín dụng Seiwa.

đọc thêm

Hmcomm ký kết thỏa thuận cấp phép Voice Digest với BPO

0:00 7/7/26

Hmcomm vừa công bố thỏa thuận cấp phép hệ thống tóm tắt cuộc gọi Voice Digest của mình với một nhà cung cấp dịch vụ thuê ngoài quy trình kinh doanh (BPO) lớn trong nước.

đọc thêm

Hitachi Systems nâng cấp WAN của Traveler với các tính năng AI.

0:00 7/7/26

Hitachi Systems vừa công bố những cải tiến dựa trên trí tuệ nhân tạo (AI) cho nền tảng quản lý chi phí Traveler'sWAN của mình

đọc thêm

Dmelt hợp tác với Đại học Tokyo Gakugei trong lĩnh vực giáo dục.

0:00 6/7/26

Dmelt vừa công bố thỏa thuận hợp tác nghiên cứu với Đại học Tokyo Gakugei để phát triển mô hình giáo dục thế hệ mới tập trung vào định hướng nghề nghiệp trong kỷ nguyên chuyển đổi trí tuệ nhân tạo (AI).

đọc thêm