Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

NVIDIA TensorRT-LLM công bố tính song song chuyên gia rộng rãi
Generatived
0:00 22/10/25
Ngành công nghiệp AI đang nhanh chóng triển khai song song mô hình, phân bổ các tác vụ tính toán trên nhiều GPU. Kỹ thuật này đặc biệt quan trọng với sự ra đời của kiến trúc Hỗn hợp Chuyên gia (MoE), hiệu quả hơn các mô hình dày đặc truyền thống chỉ kích hoạt một tập hợp con các tham số cho mỗi mã thông báo. Tuy nhiên, việc mở rộng quy mô MoE đặt ra những thách thức mới về song song hóa, giao tiếp và lập lịch, đòi hỏi phải tối ưu hóa cẩn thận.
Để giải quyết những thách thức này, khái niệm Song song Chuyên gia (EP) đã được giới thiệu. EP cải thiện hiệu suất và khả năng mở rộng bằng cách phân bổ chiến lược các đơn vị xử lý chuyên biệt được gọi là "chuyên gia" trên nhiều GPU. Phương pháp này rất cần thiết để quản lý các mô hình phức tạp như DeepSeek-R1, với 256 chuyên gia và 671 tỷ tham số. Tensor RT-LLM của NVIDIA giới thiệu Song song Chuyên gia Rộng (Wide-EP), giúp việc triển khai các mô hình quy mô lớn như vậy hiệu quả hơn, dẫn đến hiệu suất được cải thiện và tổng chi phí sở hữu thấp hơn.
Việc triển khai EP quy mô lớn đi kèm với những thách thức, đặc biệt là về yêu cầu bộ nhớ và tính toán. Các mô hình MoE có thể giảm yêu cầu tính toán cho mỗi token bằng cách chỉ kích hoạt một số lượng nhỏ chuyên gia trong quá trình suy luận. Tuy nhiên, việc tải trọng động cho mỗi chuyên gia được kích hoạt có thể tạo ra tắc nghẽn, đặc biệt là trong các tình huống thông lượng cao. EP quy mô lớn giúp giảm bớt một số vấn đề này bằng cách phân bổ chuyên gia trên nhiều GPU hơn, giảm gánh nặng tải trọng và cải thiện cân bằng tính toán và bộ nhớ trong hệ thống.
Thiết kế và kiến trúc hệ thống cũng rất quan trọng để mở rộng EP. Việc di chuyển và truyền thông bộ nhớ hiệu quả phụ thuộc vào băng thông và cấu trúc liên kết. Cần có phần mềm và kernel được tối ưu hóa để quản lý lưu lượng giữa các chuyên gia và đảm bảo truyền thông và cân bằng tải hiệu quả. NVLink của NVIDIA đóng vai trò quan trọng trong việc giảm thiểu chi phí truyền thông bằng cách cung cấp băng thông cần thiết để hỗ trợ trao đổi thông tin giữa các chuyên gia phân tán trong quá trình suy luận.
Tóm lại, Wide-EP, một phần của TensorRT-LLM của NVIDIA, cung cấp một giải pháp hiệu quả để mở rộng các mô hình MoE quy mô lớn. Bằng cách phân bổ chuyên gia trên nhiều GPU hơn, Wide-EP giảm tải trọng, cải thiện hiệu quả GroupGEMM và quản lý hiệu quả chi phí truyền thông bằng cách tận dụng miền NVLink băng thông cao. Phương pháp này không chỉ tăng thông lượng trên mỗi GPU mà còn có tác động đáng kể đến tính kinh tế của việc triển khai hệ thống, cho phép đồng thời xử lý nhiều hơn và cải thiện hiệu quả của GPU, cuối cùng là giảm chi phí phục vụ các mô hình lớn.
Chia sẻ bài viết này:
Tin tức mới nhất
THA và DAL ra mắt dịch vụ hỗ trợ quản lý dựa trên AI
0:00 1/12/25
THA (Shinjuku-ku, Tokyo) và DAL (Shibuya-ku, Tokyo), một công ty con của DeNA (Shibuya-ku, Tokyo), đã ký kết biên bản ghi nhớ (MOU) để phát triển "Leaders AI".
Giải pháp AI JTP tương thích Google đã được công bố
0:00 1/12/25
JTP (Shinagawa-ku, Tokyo) đã công bố rằng "Giải pháp Generative AI thứ ba" của họ sẽ tương thích với "Gemini 3 Pro" và "Nano Banana Pro (Gemini 3 Pro Image)"
ORENDA WORLD Kusu Town AI Phát triển nguồn nhân lực
0:00 1/12/25
ORENDA WORLD (Quận Minato, Tokyo) được Thị trấn Kusu ủy quyền phát triển "Dự án phát triển nguồn nhân lực sử dụng Generative AI".
Copyright © 2024 Generatived - All right Reserved.
Chia sẻ bài viết này:
Chia sẻ bài viết này:
Danh mục
Tin tức
AI và luật/hệ thống/kinh tế/xã hội
Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.
Tin tức mới nhất
THA và DAL ra mắt dịch vụ hỗ trợ quản lý dựa trên AI
0:00 1/12/25
THA (Shinjuku-ku, Tokyo) và DAL (Shibuya-ku, Tokyo), một công ty con của DeNA (Shibuya-ku, Tokyo), đã ký kết biên bản ghi nhớ (MOU) để phát triển "Leaders AI".
Giải pháp AI JTP tương thích Google đã được công bố
0:00 1/12/25
JTP (Shinagawa-ku, Tokyo) đã công bố rằng "Giải pháp Generative AI thứ ba" của họ sẽ tương thích với "Gemini 3 Pro" và "Nano Banana Pro (Gemini 3 Pro Image)"
ORENDA WORLD Kusu Town AI Phát triển nguồn nhân lực
0:00 1/12/25
ORENDA WORLD (Quận Minato, Tokyo) được Thị trấn Kusu ủy quyền phát triển "Dự án phát triển nguồn nhân lực sử dụng Generative AI".


%20(1).webp)



