Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

NVIDIA TensorRT-LLM công bố tính song song chuyên gia rộng rãi

Generatived

0:00 22/10/25

Ngành công nghiệp AI đang nhanh chóng triển khai song song mô hình, phân bổ các tác vụ tính toán trên nhiều GPU. Kỹ thuật này đặc biệt quan trọng với sự ra đời của kiến trúc Hỗn hợp Chuyên gia (MoE), hiệu quả hơn các mô hình dày đặc truyền thống chỉ kích hoạt một tập hợp con các tham số cho mỗi mã thông báo. Tuy nhiên, việc mở rộng quy mô MoE đặt ra những thách thức mới về song song hóa, giao tiếp và lập lịch, đòi hỏi phải tối ưu hóa cẩn thận.

Để giải quyết những thách thức này, khái niệm Song song Chuyên gia (EP) đã được giới thiệu. EP cải thiện hiệu suất và khả năng mở rộng bằng cách phân bổ chiến lược các đơn vị xử lý chuyên biệt được gọi là "chuyên gia" trên nhiều GPU. Phương pháp này rất cần thiết để quản lý các mô hình phức tạp như DeepSeek-R1, với 256 chuyên gia và 671 tỷ tham số. Tensor RT-LLM của NVIDIA giới thiệu Song song Chuyên gia Rộng (Wide-EP), giúp việc triển khai các mô hình quy mô lớn như vậy hiệu quả hơn, dẫn đến hiệu suất được cải thiện và tổng chi phí sở hữu thấp hơn.

Việc triển khai EP quy mô lớn đi kèm với những thách thức, đặc biệt là về yêu cầu bộ nhớ và tính toán. Các mô hình MoE có thể giảm yêu cầu tính toán cho mỗi token bằng cách chỉ kích hoạt một số lượng nhỏ chuyên gia trong quá trình suy luận. Tuy nhiên, việc tải trọng động cho mỗi chuyên gia được kích hoạt có thể tạo ra tắc nghẽn, đặc biệt là trong các tình huống thông lượng cao. EP quy mô lớn giúp giảm bớt một số vấn đề này bằng cách phân bổ chuyên gia trên nhiều GPU hơn, giảm gánh nặng tải trọng và cải thiện cân bằng tính toán và bộ nhớ trong hệ thống.

Thiết kế và kiến trúc hệ thống cũng rất quan trọng để mở rộng EP. Việc di chuyển và truyền thông bộ nhớ hiệu quả phụ thuộc vào băng thông và cấu trúc liên kết. Cần có phần mềm và kernel được tối ưu hóa để quản lý lưu lượng giữa các chuyên gia và đảm bảo truyền thông và cân bằng tải hiệu quả. NVLink của NVIDIA đóng vai trò quan trọng trong việc giảm thiểu chi phí truyền thông bằng cách cung cấp băng thông cần thiết để hỗ trợ trao đổi thông tin giữa các chuyên gia phân tán trong quá trình suy luận.

Tóm lại, Wide-EP, một phần của TensorRT-LLM của NVIDIA, cung cấp một giải pháp hiệu quả để mở rộng các mô hình MoE quy mô lớn. Bằng cách phân bổ chuyên gia trên nhiều GPU hơn, Wide-EP giảm tải trọng, cải thiện hiệu quả GroupGEMM và quản lý hiệu quả chi phí truyền thông bằng cách tận dụng miền NVLink băng thông cao. Phương pháp này không chỉ tăng thông lượng trên mỗi GPU mà còn có tác động đáng kể đến tính kinh tế của việc triển khai hệ thống, cho phép đồng thời xử lý nhiều hơn và cải thiện hiệu quả của GPU, cuối cùng là giảm chi phí phục vụ các mô hình lớn.

Nguồn: Blog nhà phát triển NVIDIA

Chia sẻ bài viết này:

Tin tức mới nhất

THA và DAL ra mắt dịch vụ hỗ trợ quản lý dựa trên AI

0:00 1/12/25

THA (Shinjuku-ku, Tokyo) và DAL (Shibuya-ku, Tokyo), một công ty con của DeNA (Shibuya-ku, Tokyo), đã ký kết biên bản ghi nhớ (MOU) để phát triển "Leaders AI".

đọc thêm

Giải pháp AI JTP tương thích Google đã được công bố

0:00 1/12/25

JTP (Shinagawa-ku, Tokyo) đã công bố rằng "Giải pháp Generative AI thứ ba" của họ sẽ tương thích với "Gemini 3 Pro" và "Nano Banana Pro (Gemini 3 Pro Image)"

đọc thêm

ORENDA WORLD Kusu Town AI Phát triển nguồn nhân lực

0:00 1/12/25

ORENDA WORLD (Quận Minato, Tokyo) được Thị trấn Kusu ủy quyền phát triển "Dự án phát triển nguồn nhân lực sử dụng Generative AI".

đọc thêm

VeriServe ra mắt dịch vụ đảm bảo chất lượng AI mới

0:00 1/12/25

VeriServe (Chiyoda-ku, Tokyo) vừa ra mắt dịch vụ mới đảm bảo chất lượng sản phẩm bằng Generative AI).

đọc thêm

Chia sẻ bài viết này:

Danh mục

Trình nâng cao hình ảnh AI

Trình tạo mã AI

Quản lý tác vụ AI

Không có mã/mã thấp

Trình tạo thiết kế đồ họa AI

Trình tạo minh họa/nghệ thuật AI

Tất cả công cụ

Tin tức

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI sáng tạo

Hướng dẫn ứng dụng AI cơ bản

Hồ sơ công ty

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng trang web

Công ty điều hành

Hãy theo dõi chúng tôi

Ngôn ngữ

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Hãy theo dõi chúng tôi

Ngôn ngữ

Danh mục

Tất cả công cụ

Quản lý tác vụ AI

Trình tạo thiết kế đồ họa AI

Không có mã/mã thấp

Trình tạo mã AI

Trình nâng cao hình ảnh AI

Trình tạo minh họa/nghệ thuật AI

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI tạo ra

Hướng dẫn ứng dụng AI cơ bản

Tin tức

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng của trang web

Công ty điều hành

Hồ sơ công ty

Tin tức mới nhất

THA và DAL ra mắt dịch vụ hỗ trợ quản lý dựa trên AI

0:00 1/12/25

THA (Shinjuku-ku, Tokyo) và DAL (Shibuya-ku, Tokyo), một công ty con của DeNA (Shibuya-ku, Tokyo), đã ký kết biên bản ghi nhớ (MOU) để phát triển "Leaders AI".

đọc thêm

Giải pháp AI JTP tương thích Google đã được công bố

0:00 1/12/25

JTP (Shinagawa-ku, Tokyo) đã công bố rằng "Giải pháp Generative AI thứ ba" của họ sẽ tương thích với "Gemini 3 Pro" và "Nano Banana Pro (Gemini 3 Pro Image)"

đọc thêm

ORENDA WORLD Kusu Town AI Phát triển nguồn nhân lực

0:00 1/12/25

ORENDA WORLD (Quận Minato, Tokyo) được Thị trấn Kusu ủy quyền phát triển "Dự án phát triển nguồn nhân lực sử dụng Generative AI".

đọc thêm

VeriServe ra mắt dịch vụ đảm bảo chất lượng AI mới

0:00 1/12/25

VeriServe (Chiyoda-ku, Tokyo) vừa ra mắt dịch vụ mới đảm bảo chất lượng sản phẩm bằng Generative AI).

đọc thêm