Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

NVIDIA tăng cường suy luận mô hình MoE với Dynamo

Generatived

0:00 10/6/25

Những tiến bộ mới nhất trong các mô hình ngôn ngữ lớn (LLM) được đặc trưng bởi sự chuyển dịch sang kiến trúc Hỗn hợp chuyên gia (MoE), tiêu biểu là các mô hình như DeepSeek R1, Llama 4 và Qwen3. Các mô hình MoE này hoạt động bằng cách chỉ kích hoạt một vài tham số chuyên biệt (tức là "chuyên gia") trong quá trình suy luận, giúp giảm đáng kể tải tính toán và chi phí. Việc kết hợp các mô hình này với các tối ưu hóa suy luận Dynamo của NVIDIA và không gian rộng lớn của kiến trúc GB200 NVL72 có thể cải thiện đáng kể hiệu quả suy luận. Sự kết hợp này đặc biệt có lợi cho các nhà máy AI, cho phép họ tăng sức mạnh xử lý yêu cầu của người dùng trên mỗi GPU mà không ảnh hưởng đến chất lượng trải nghiệm của người dùng.

Các nghiên cứu gần đây, bao gồm đánh giá sâu rộng về cấu hình phần cứng với trình mô phỏng hiệu suất GPU, đã tiết lộ tác động của phân tích và song song mô hình lên thông lượng MoE. Kể từ khi các nhà nghiên cứu Google phát triển mô hình BERT vào năm 2018, trọng số mô hình đã tăng theo cấp số nhân, làm tăng kỳ vọng về thông lượng suy luận tạo sinh và tính tương tác. Để giải quyết vấn đề này, các mô hình hiện được phân vùng trên nhiều GPU và các kỹ thuật song song hóa như song song tenxơ (TP), song song đường ống (PP) và song song dữ liệu (DP) được sử dụng. Phục vụ phân tán, tách các giai đoạn điền trước và giải mã suy luận thành các GPU khác nhau, đã nổi lên như một cách để tối ưu hóa việc sử dụng tài nguyên và đáp ứng các thỏa thuận mức dịch vụ khác nhau cho từng giai đoạn.

NVIDIA Dynamo đang cách mạng hóa việc triển khai các mô hình MoE với khuôn khổ dịch vụ suy luận phân tán của mình. Khuôn khổ này được thiết kế để giải quyết sự phức tạp của các kiến trúc dịch vụ phân tán. Dynamo tạo điều kiện chuyển nhanh bộ nhớ đệm KV giữa các GPU điền trước và giải mã và định tuyến thông minh các yêu cầu đến GPU phù hợp. Nó cũng mở rộng toàn bộ thiết lập để phù hợp với nhu cầu của người dùng, đảm bảo phân bổ tài nguyên hiệu quả và tuân thủ các thỏa thuận về mức dịch vụ. Công cụ Planner của khuôn khổ tự động cân bằng tỷ lệ yêu cầu giữa các giai đoạn điền trước và giải mã và thích ứng với các khối lượng công việc thay đổi để tối ưu hóa cấu hình tài nguyên GPU.

Kiến trúc NVIDIA GB200 NVL72 NVLink đóng vai trò quan trọng trong việc tối đa hóa hiệu suất của các mô hình MoE trong các cấu hình dịch vụ phân tán. Bằng cách cho phép giao tiếp băng thông cao, độ trễ thấp giữa các GPU, GB200 NVL72 ngăn chặn các giới hạn mạng cản trở các mẫu giao tiếp tất cả đến tất cả cần thiết cho các mô hình MoE. Kiến trúc hỗ trợ tối đa 72 GPU, cải thiện đáng kể tốc độ giao tiếp và cho phép vận hành hiệu quả nhiều cấu hình giải mã song song chuyên gia. Sự kết hợp giữa NVIDIA Dynamo và khả năng của GB200 NVL72 không chỉ cải thiện hiệu suất của các mô hình MoE mà còn mang lại lợi ích đáng kể trong việc cung cấp các mô hình mật độ cao truyền thống, dẫn đến thông lượng cao hơn và lợi nhuận bền vững cho các nhà máy AI.

Nguồn: Blog nhà phát triển NVIDIA

Chia sẻ bài viết này:

Tin tức mới nhất

Caterpillar ra mắt máy xúc mini trợ lý AI tích hợp công nghệ NVIDIA.

0:00 12/3/26

Caterpillar đã mang đến một chiều hướng mới cho thiết bị xây dựng nhỏ gọn của mình bằng việc tích hợp trí tuệ nhân tạo.

đọc thêm

NVIDIA nâng cấp khả năng tạo video bằng AI cho các nhà phát triển.

0:00 12/3/26

Tại Hội nghị các nhà phát triển game (Game Developers Conference) ở San Francisco, NVIDIA đã công bố một loạt bản cập nhật nhằm nâng cao khả năng tạo video bằng trí tuệ nhân tạo (AI)

đọc thêm

NVIDIA nâng cấp khả năng lập trình AI cho Unreal Engine.

0:00 12/3/26

Các trợ lý lập trình dựa trên trí tuệ nhân tạo (AI) ngày càng được tích hợp vào quy trình làm việc hàng ngày của các studio phát triển game.

đọc thêm

Hỗ trợ kiểm thử phần mềm AI mới của VeriServe

0:00 12/3/26

VeriServe (Chiyoda-ku, Tokyo) thông báo sẽ bắt đầu cung cấp phiên bản thử nghiệm của "TESTRA", một sản phẩm hỗ trợ kiểm thử phần mềm mới sử dụng Trí tuệ Generative AI)

đọc thêm

Chia sẻ bài viết này:

Danh mục

Trình nâng cao hình ảnh AI

Trình tạo mã AI

Quản lý tác vụ AI

Không có mã/mã thấp

Trình tạo thiết kế đồ họa AI

Trình tạo minh họa/nghệ thuật AI

Tất cả công cụ

Tin tức

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI sáng tạo

Hướng dẫn ứng dụng AI cơ bản

Hồ sơ công ty

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng trang web

Công ty điều hành

Hãy theo dõi chúng tôi

Ngôn ngữ

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Hãy theo dõi chúng tôi

Ngôn ngữ

Danh mục

Tất cả công cụ

Quản lý tác vụ AI

Trình tạo thiết kế đồ họa AI

Không có mã/mã thấp

Trình tạo mã AI

Trình nâng cao hình ảnh AI

Trình tạo minh họa/nghệ thuật AI

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI tạo ra

Hướng dẫn ứng dụng AI cơ bản

Tin tức

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng của trang web

Công ty điều hành

Hồ sơ công ty

Tin tức mới nhất

Caterpillar ra mắt máy xúc mini trợ lý AI tích hợp công nghệ NVIDIA.

0:00 12/3/26

Caterpillar đã mang đến một chiều hướng mới cho thiết bị xây dựng nhỏ gọn của mình bằng việc tích hợp trí tuệ nhân tạo.

đọc thêm

NVIDIA nâng cấp khả năng tạo video bằng AI cho các nhà phát triển.

0:00 12/3/26

Tại Hội nghị các nhà phát triển game (Game Developers Conference) ở San Francisco, NVIDIA đã công bố một loạt bản cập nhật nhằm nâng cao khả năng tạo video bằng trí tuệ nhân tạo (AI)

đọc thêm

NVIDIA nâng cấp khả năng lập trình AI cho Unreal Engine.

0:00 12/3/26

Các trợ lý lập trình dựa trên trí tuệ nhân tạo (AI) ngày càng được tích hợp vào quy trình làm việc hàng ngày của các studio phát triển game.

đọc thêm

Hỗ trợ kiểm thử phần mềm AI mới của VeriServe

0:00 12/3/26

VeriServe (Chiyoda-ku, Tokyo) thông báo sẽ bắt đầu cung cấp phiên bản thử nghiệm của "TESTRA", một sản phẩm hỗ trợ kiểm thử phần mềm mới sử dụng Trí tuệ Generative AI)

đọc thêm