top of page

Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

logo.png

Hướng dẫn của NVIDIA giúp nâng cao hiệu quả sử dụng GPU trong Kubernetes.

Generatived

0:00 27/3/26

Trong môi trường Kubernetes, sự không phù hợp giữa yêu cầu của mô hình và kích thước GPU thường dẫn đến sự thiếu hiệu quả, đặc biệt khi các mô hình nhẹ như nhận dạng giọng nói tự động (ASR) hoặc chuyển văn bản thành giọng nói (TTS) chiếm toàn bộ GPU mặc dù chỉ cần một phần nhỏ dung lượng của nó. Tình huống phổ biến này dẫn đến việc sử dụng không hiệu quả các tài nguyên tính toán đắt tiền, thúc đẩy nhu cầu về các chiến lược để tối ưu hóa mật độ cụm và phục vụ nhiều người dùng hơn mà không cần thêm phần cứng.

Một hướng dẫn đã được phát hành, trình bày chi tiết việc triển khai và đánh giá hiệu năng của các chiến lược phân vùng GPU, bao gồm cả GPU đa phiên bản (MIG) của NVIDIA và các kỹ thuật phân chia thời gian. Các phương pháp này nhằm mục đích tận dụng tối đa tài nguyên tính toán, tập trung vào việc duy trì độ tin cậy cao và đáp ứng các yêu cầu latency nghiêm ngặt. Hướng dẫn sử dụng một hệ thống AI giọng nói cấp độ sản xuất làm nền tảng thử nghiệm để chứng minh cách kết hợp các mô hình có thể tối đa hóa lợi tức đầu tư vào cơ sở hạ tầng.

Plugin thiết bị NVIDIA cho Kubernetes thường hiển thị GPU dưới dạng tài nguyên số nguyên, dẫn đến sự thiếu hiệu quả khi các mô hình ngôn ngữ lớn (LLM) yêu cầu tính toán chuyên dụng, trong khi các mô hình hỗ trợ chỉ sử dụng một phần dung lượng của GPU. Để giải quyết vấn đề này, hướng dẫn đề xuất phá vỡ mối quan hệ một-đối-một giữa các pod và GPU. Hai chiến lược chính để phân vùng GPU được đánh giá: phân vùng dựa trên phần mềm thông qua phân chia thời gian và MPS, và phân vùng dựa trên phần cứng bằng cách sử dụng MIG. Mỗi phương pháp đều có ưu điểm và hạn chế riêng, trong đó MIG cung cấp chất lượng dịch vụ nghiêm ngặt thông qua cách ly ở cấp độ phần cứng.

Một thiết lập thử nghiệm sử dụng quy trình xử lý giọng nói AI đã được triển khai để xác thực các chiến lược phân vùng này. Quy trình này, bao gồm các khối lượng công việc ASR, TTS và LLM, được sử dụng để đánh giá tác động của các phương pháp phân vùng khác nhau đến hiệu quả và khả năng phản hồi của hệ thống. Kết quả cho thấy việc hợp nhất ASR và TTS trên một GPU duy nhất có thể duy trì latency trong khi giải phóng tài nguyên tính toán cho các phiên bản LLM bổ sung. Phân vùng MIG nổi lên như phương pháp được ưu tiên cho môi trường sản xuất, mang lại hiệu quả và độ ổn định cao nhất, trong khi phân vùng theo thời gian được khuyến nghị cho môi trường phát triển hoặc các ứng dụng có độ đồng thời thấp.

Hướng dẫn kết thúc bằng các khuyến nghị về việc triển khai phân vùng và mở rộng GPU với NVIDIA NIM để tận dụng tối đa khối lượng công việc ASR, TTS và LLM, từ đó nâng cao hiệu suất cơ sở hạ tầng và lợi tức đầu tư.

Chia sẻ bài viết này:

Tin tức mới nhất
Các xu hướng ransomware mới nhất của NTT Security

Các xu hướng ransomware mới nhất của NTT Security

0:00 27/3/26

Công ty NTT Security Japan (Chiyoda-ku, Tokyo) sẽ trình bày về "Xu hướng mới nhất trong tấn công ransomware" tại "Diễn đàn An ninh mạng (Phiên bản tốt nhất)"

Trí tuệ nhân tạo quản trị của Polimill giờ đây đã bao gồm chức năng tạo hình ảnh.

Trí tuệ nhân tạo quản trị của Polimill giờ đây đã bao gồm chức năng tạo hình ảnh.

0:00 27/3/26

Công ty Polimill (Minato-ku, Tokyo) thông báo sẽ bổ sung ba Generative AI hình ảnh mới, "Nano Banana 2," "Nano Banana Pro," và "GPT Image 1.5,"

S2W cung cấp AI CTI "QUAXAR" cho ASUS.

S2W cung cấp AI CTI "QUAXAR" cho ASUS.

0:00 27/3/26

Ngày 24 tháng 3, S2W (Đài Bắc, Đài Loan) thông báo sẽ cung cấp nền tảng CTI dựa trên trí tuệ nhân tạo "QUAXAR" cho ASUS.

Hệ thống avatar AI tự phục vụ sẽ được triển khai tại các điểm du lịch trên toàn quốc.

Hệ thống avatar AI tự phục vụ sẽ được triển khai tại các điểm du lịch trên toàn quốc.

0:00 27/3/26

Công ty SELF (Shinjuku-ku, Tokyo) thông báo đã tích hợp "SELFBOT AI avatar" vào dịch vụ thông tin du lịch dạng bảng hiệu kỹ thuật số của Hitachi (Chiyoda-ku, Tokyo).

Copyright © 2024 Generatived - All right Reserved.

Chia sẻ bài viết này:

Chia sẻ bài viết này:

Generatived AI Logo

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

  • Facebook
  • X

Hãy theo dõi chúng tôi

Ngôn ngữ

Tin tức mới nhất
Các xu hướng ransomware mới nhất của NTT Security

Các xu hướng ransomware mới nhất của NTT Security

0:00 27/3/26

Công ty NTT Security Japan (Chiyoda-ku, Tokyo) sẽ trình bày về "Xu hướng mới nhất trong tấn công ransomware" tại "Diễn đàn An ninh mạng (Phiên bản tốt nhất)"

Trí tuệ nhân tạo quản trị của Polimill giờ đây đã bao gồm chức năng tạo hình ảnh.

Trí tuệ nhân tạo quản trị của Polimill giờ đây đã bao gồm chức năng tạo hình ảnh.

0:00 27/3/26

Công ty Polimill (Minato-ku, Tokyo) thông báo sẽ bổ sung ba Generative AI hình ảnh mới, "Nano Banana 2," "Nano Banana Pro," và "GPT Image 1.5,"

S2W cung cấp AI CTI "QUAXAR" cho ASUS.

S2W cung cấp AI CTI "QUAXAR" cho ASUS.

0:00 27/3/26

Ngày 24 tháng 3, S2W (Đài Bắc, Đài Loan) thông báo sẽ cung cấp nền tảng CTI dựa trên trí tuệ nhân tạo "QUAXAR" cho ASUS.

Hệ thống avatar AI tự phục vụ sẽ được triển khai tại các điểm du lịch trên toàn quốc.

Hệ thống avatar AI tự phục vụ sẽ được triển khai tại các điểm du lịch trên toàn quốc.

0:00 27/3/26

Công ty SELF (Shinjuku-ku, Tokyo) thông báo đã tích hợp "SELFBOT AI avatar" vào dịch vụ thông tin du lịch dạng bảng hiệu kỹ thuật số của Hitachi (Chiyoda-ku, Tokyo).

bottom of page