Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

NVIDIA TensorRT-LLM công bố tính song song chuyên gia rộng rãi

Generatived

0:00 22/10/25

Ngành công nghiệp AI đang nhanh chóng triển khai song song mô hình, phân bổ các tác vụ tính toán trên nhiều GPU. Kỹ thuật này đặc biệt quan trọng với sự ra đời của kiến trúc Hỗn hợp Chuyên gia (MoE), hiệu quả hơn các mô hình dày đặc truyền thống chỉ kích hoạt một tập hợp con các tham số cho mỗi mã thông báo. Tuy nhiên, việc mở rộng quy mô MoE đặt ra những thách thức mới về song song hóa, giao tiếp và lập lịch, đòi hỏi phải tối ưu hóa cẩn thận.

Để giải quyết những thách thức này, khái niệm Song song Chuyên gia (EP) đã được giới thiệu. EP cải thiện hiệu suất và khả năng mở rộng bằng cách phân bổ chiến lược các đơn vị xử lý chuyên biệt được gọi là "chuyên gia" trên nhiều GPU. Phương pháp này rất cần thiết để quản lý các mô hình phức tạp như DeepSeek-R1, với 256 chuyên gia và 671 tỷ tham số. Tensor RT-LLM của NVIDIA giới thiệu Song song Chuyên gia Rộng (Wide-EP), giúp việc triển khai các mô hình quy mô lớn như vậy hiệu quả hơn, dẫn đến hiệu suất được cải thiện và tổng chi phí sở hữu thấp hơn.

Việc triển khai EP quy mô lớn đi kèm với những thách thức, đặc biệt là về yêu cầu bộ nhớ và tính toán. Các mô hình MoE có thể giảm yêu cầu tính toán cho mỗi token bằng cách chỉ kích hoạt một số lượng nhỏ chuyên gia trong quá trình suy luận. Tuy nhiên, việc tải trọng động cho mỗi chuyên gia được kích hoạt có thể tạo ra tắc nghẽn, đặc biệt là trong các tình huống thông lượng cao. EP quy mô lớn giúp giảm bớt một số vấn đề này bằng cách phân bổ chuyên gia trên nhiều GPU hơn, giảm gánh nặng tải trọng và cải thiện cân bằng tính toán và bộ nhớ trong hệ thống.

Thiết kế và kiến trúc hệ thống cũng rất quan trọng để mở rộng EP. Việc di chuyển và truyền thông bộ nhớ hiệu quả phụ thuộc vào băng thông và cấu trúc liên kết. Cần có phần mềm và kernel được tối ưu hóa để quản lý lưu lượng giữa các chuyên gia và đảm bảo truyền thông và cân bằng tải hiệu quả. NVLink của NVIDIA đóng vai trò quan trọng trong việc giảm thiểu chi phí truyền thông bằng cách cung cấp băng thông cần thiết để hỗ trợ trao đổi thông tin giữa các chuyên gia phân tán trong quá trình suy luận.

Tóm lại, Wide-EP, một phần của TensorRT-LLM của NVIDIA, cung cấp một giải pháp hiệu quả để mở rộng các mô hình MoE quy mô lớn. Bằng cách phân bổ chuyên gia trên nhiều GPU hơn, Wide-EP giảm tải trọng, cải thiện hiệu quả GroupGEMM và quản lý hiệu quả chi phí truyền thông bằng cách tận dụng miền NVLink băng thông cao. Phương pháp này không chỉ tăng thông lượng trên mỗi GPU mà còn có tác động đáng kể đến tính kinh tế của việc triển khai hệ thống, cho phép đồng thời xử lý nhiều hơn và cải thiện hiệu quả của GPU, cuối cùng là giảm chi phí phục vụ các mô hình lớn.

Nguồn: Blog nhà phát triển NVIDIA

Chia sẻ bài viết này:

Tin tức mới nhất

NEC và Viện Quản lý Rủi ro Y tế Quốc gia phát triển công nghệ hỗ trợ bác sĩ dựa trên AI

0:00 26/11/25

Viện Quản lý Rủi ro Y tế Quốc gia (Shinjuku-ku, Tokyo) và NEC (Minato-ku, Tokyo) đã cùng nhau phát triển và kiểm chứng hiệu quả của công nghệ hỗ trợ bác sĩ dựa trên AI.

đọc thêm

Google AI ra mắt Gemini giúp việc lập kế hoạch kỳ nghỉ trở nên dễ dàng hơn

0:00 26/11/25

Google AI cung cấp một bộ công cụ giúp các nhà tổ chức lên kế hoạch cho các hoạt động lễ hội một cách suôn sẻ.

đọc thêm

NVIDIA cung cấp các tác nhân AI chuyên biệt cho các nhà lãnh đạo ngành

0:00 26/11/25

Công nghệ NVIDIA đang dẫn đầu xu hướng ứng dụng AI dựa trên tác nhân (agent-based AI), khi các công ty tìm cách phát triển các tác nhân AI phù hợp với nhu cầu kinh doanh riêng biệt của họ.

đọc thêm

Anthropic phát hành Claude Opus 4.5 cho Vertex AI

0:00 26/11/25

Anthropic vừa công bố Claude Opus 4.5, phiên bản mới nhất của họ trên Vertex AI, đã chính thức ra mắt.

đọc thêm

Chia sẻ bài viết này:

Danh mục

Trình nâng cao hình ảnh AI

Trình tạo mã AI

Quản lý tác vụ AI

Không có mã/mã thấp

Trình tạo thiết kế đồ họa AI

Trình tạo minh họa/nghệ thuật AI

Tất cả công cụ

Tin tức

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI sáng tạo

Hướng dẫn ứng dụng AI cơ bản

Hồ sơ công ty

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng trang web

Công ty điều hành

Hãy theo dõi chúng tôi

Ngôn ngữ

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Hãy theo dõi chúng tôi

Ngôn ngữ

Danh mục

Tất cả công cụ

Quản lý tác vụ AI

Trình tạo thiết kế đồ họa AI

Không có mã/mã thấp

Trình tạo mã AI

Trình nâng cao hình ảnh AI

Trình tạo minh họa/nghệ thuật AI

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI tạo ra

Hướng dẫn ứng dụng AI cơ bản

Tin tức

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng của trang web

Công ty điều hành

Hồ sơ công ty

Tin tức mới nhất

NEC và Viện Quản lý Rủi ro Y tế Quốc gia phát triển công nghệ hỗ trợ bác sĩ dựa trên AI

0:00 26/11/25

Viện Quản lý Rủi ro Y tế Quốc gia (Shinjuku-ku, Tokyo) và NEC (Minato-ku, Tokyo) đã cùng nhau phát triển và kiểm chứng hiệu quả của công nghệ hỗ trợ bác sĩ dựa trên AI.

đọc thêm

Google AI ra mắt Gemini giúp việc lập kế hoạch kỳ nghỉ trở nên dễ dàng hơn

0:00 26/11/25

Google AI cung cấp một bộ công cụ giúp các nhà tổ chức lên kế hoạch cho các hoạt động lễ hội một cách suôn sẻ.

đọc thêm

NVIDIA cung cấp các tác nhân AI chuyên biệt cho các nhà lãnh đạo ngành

0:00 26/11/25

Công nghệ NVIDIA đang dẫn đầu xu hướng ứng dụng AI dựa trên tác nhân (agent-based AI), khi các công ty tìm cách phát triển các tác nhân AI phù hợp với nhu cầu kinh doanh riêng biệt của họ.

đọc thêm

Anthropic phát hành Claude Opus 4.5 cho Vertex AI

0:00 26/11/25

Anthropic vừa công bố Claude Opus 4.5, phiên bản mới nhất của họ trên Vertex AI, đã chính thức ra mắt.

đọc thêm