Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

Hướng dẫn của NVIDIA giúp nâng cao hiệu quả sử dụng GPU trong Kubernetes.

Generatived

0:00 27/3/26

Trong môi trường Kubernetes, sự không phù hợp giữa yêu cầu của mô hình và kích thước GPU thường dẫn đến sự thiếu hiệu quả, đặc biệt khi các mô hình nhẹ như nhận dạng giọng nói tự động (ASR) hoặc chuyển văn bản thành giọng nói (TTS) chiếm toàn bộ GPU mặc dù chỉ cần một phần nhỏ dung lượng của nó. Tình huống phổ biến này dẫn đến việc sử dụng không hiệu quả các tài nguyên tính toán đắt tiền, thúc đẩy nhu cầu về các chiến lược để tối ưu hóa mật độ cụm và phục vụ nhiều người dùng hơn mà không cần thêm phần cứng.

Một hướng dẫn đã được phát hành, trình bày chi tiết việc triển khai và đánh giá hiệu năng của các chiến lược phân vùng GPU, bao gồm cả GPU đa phiên bản (MIG) của NVIDIA và các kỹ thuật phân chia thời gian. Các phương pháp này nhằm mục đích tận dụng tối đa tài nguyên tính toán, tập trung vào việc duy trì độ tin cậy cao và đáp ứng các yêu cầu latency nghiêm ngặt. Hướng dẫn sử dụng một hệ thống AI giọng nói cấp độ sản xuất làm nền tảng thử nghiệm để chứng minh cách kết hợp các mô hình có thể tối đa hóa lợi tức đầu tư vào cơ sở hạ tầng.

Plugin thiết bị NVIDIA cho Kubernetes thường hiển thị GPU dưới dạng tài nguyên số nguyên, dẫn đến sự thiếu hiệu quả khi các mô hình ngôn ngữ lớn (LLM) yêu cầu tính toán chuyên dụng, trong khi các mô hình hỗ trợ chỉ sử dụng một phần dung lượng của GPU. Để giải quyết vấn đề này, hướng dẫn đề xuất phá vỡ mối quan hệ một-đối-một giữa các pod và GPU. Hai chiến lược chính để phân vùng GPU được đánh giá: phân vùng dựa trên phần mềm thông qua phân chia thời gian và MPS, và phân vùng dựa trên phần cứng bằng cách sử dụng MIG. Mỗi phương pháp đều có ưu điểm và hạn chế riêng, trong đó MIG cung cấp chất lượng dịch vụ nghiêm ngặt thông qua cách ly ở cấp độ phần cứng.

Một thiết lập thử nghiệm sử dụng quy trình xử lý giọng nói AI đã được triển khai để xác thực các chiến lược phân vùng này. Quy trình này, bao gồm các khối lượng công việc ASR, TTS và LLM, được sử dụng để đánh giá tác động của các phương pháp phân vùng khác nhau đến hiệu quả và khả năng phản hồi của hệ thống. Kết quả cho thấy việc hợp nhất ASR và TTS trên một GPU duy nhất có thể duy trì latency trong khi giải phóng tài nguyên tính toán cho các phiên bản LLM bổ sung. Phân vùng MIG nổi lên như phương pháp được ưu tiên cho môi trường sản xuất, mang lại hiệu quả và độ ổn định cao nhất, trong khi phân vùng theo thời gian được khuyến nghị cho môi trường phát triển hoặc các ứng dụng có độ đồng thời thấp.

Hướng dẫn kết thúc bằng các khuyến nghị về việc triển khai phân vùng và mở rộng GPU với NVIDIA NIM để tận dụng tối đa khối lượng công việc ASR, TTS và LLM, từ đó nâng cao hiệu suất cơ sở hạ tầng và lợi tức đầu tư.

Nguồn: Blog nhà phát triển NVIDIA

Chia sẻ bài viết này:

Tin tức mới nhất

AndTech ra mắt các khóa học mới về Python và Trí tuệ nhân tạo.

0:00 27/3/26

AndTech (thành phố Kawasaki, tỉnh Kanagawa) đang ra mắt một khóa học mới kết hợp lập trình Python với Trí tuệ Nhân tạo (AI) và Trí tuệ Vật liệu (MI).

đọc thêm

DMM.com mở rộng quá trình chuyển đổi sang Google Cloud.

0:00 27/3/26

Datadog(Tokyo) thông báo rằng DMM.com đã chuyển đổi cơ sở hạ tầng vận hành cho dịch vụ "DMM TV" sang Google Cloud, mở rộng việc sử dụng nền tảng Datadog .

đọc thêm

Công cụ CLI DocBase mới được Clay phát hành

0:00 27/3/26

Claude (Thành phố Musashino, Tokyo) đã phát hành "DocBase CLI", cho phép vận hành trực tiếp công cụ chia sẻ thông tin "DocBase" từ các công cụ lập trình AI và các quy trình CI/CD .

đọc thêm

Figma công bố các tính năng mới cho tác nhân AI.

0:00 27/3/26

Figma(có trụ sở chính tại San Francisco, Hoa Kỳ) vừa công bố một tính năng mới cho phép các tác nhân AI trực tiếp tạo và chỉnh sửa các thiết kế.

đọc thêm

Chia sẻ bài viết này:

Danh mục

Trình nâng cao hình ảnh AI

Trình tạo mã AI

Quản lý tác vụ AI

Không có mã/mã thấp

Trình tạo thiết kế đồ họa AI

Trình tạo minh họa/nghệ thuật AI

Tất cả công cụ

Tin tức

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI sáng tạo

Hướng dẫn ứng dụng AI cơ bản

Hồ sơ công ty

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng trang web

Công ty điều hành

Hãy theo dõi chúng tôi

Ngôn ngữ

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Hãy theo dõi chúng tôi

Ngôn ngữ

Danh mục

Tất cả công cụ

Quản lý tác vụ AI

Trình tạo thiết kế đồ họa AI

Không có mã/mã thấp

Trình tạo mã AI

Trình nâng cao hình ảnh AI

Trình tạo minh họa/nghệ thuật AI

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI tạo ra

Hướng dẫn ứng dụng AI cơ bản

Tin tức

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng của trang web

Công ty điều hành

Hồ sơ công ty

Tin tức mới nhất

AndTech ra mắt các khóa học mới về Python và Trí tuệ nhân tạo.

0:00 27/3/26

AndTech (thành phố Kawasaki, tỉnh Kanagawa) đang ra mắt một khóa học mới kết hợp lập trình Python với Trí tuệ Nhân tạo (AI) và Trí tuệ Vật liệu (MI).

đọc thêm

DMM.com mở rộng quá trình chuyển đổi sang Google Cloud.

0:00 27/3/26

Datadog(Tokyo) thông báo rằng DMM.com đã chuyển đổi cơ sở hạ tầng vận hành cho dịch vụ "DMM TV" sang Google Cloud, mở rộng việc sử dụng nền tảng Datadog .

đọc thêm

Công cụ CLI DocBase mới được Clay phát hành

0:00 27/3/26

Claude (Thành phố Musashino, Tokyo) đã phát hành "DocBase CLI", cho phép vận hành trực tiếp công cụ chia sẻ thông tin "DocBase" từ các công cụ lập trình AI và các quy trình CI/CD .

đọc thêm

Figma công bố các tính năng mới cho tác nhân AI.

0:00 27/3/26

Figma(có trụ sở chính tại San Francisco, Hoa Kỳ) vừa công bố một tính năng mới cho phép các tác nhân AI trực tiếp tạo và chỉnh sửa các thiết kế.

đọc thêm