top of page

Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

logo.png

NVIDIA tăng cường suy luận mô hình MoE với Dynamo

Generatived

0:00 10/6/25

Những tiến bộ mới nhất trong các mô hình ngôn ngữ lớn (LLM) được đặc trưng bởi sự chuyển dịch sang kiến ​​trúc Hỗn hợp chuyên gia (MoE), tiêu biểu là các mô hình như DeepSeek R1, Llama 4 và Qwen3. Các mô hình MoE này hoạt động bằng cách chỉ kích hoạt một vài tham số chuyên biệt (tức là "chuyên gia") trong quá trình suy luận, giúp giảm đáng kể tải tính toán và chi phí. Việc kết hợp các mô hình này với các tối ưu hóa suy luận Dynamo của NVIDIA và không gian rộng lớn của kiến ​​trúc GB200 NVL72 có thể cải thiện đáng kể hiệu quả suy luận. Sự kết hợp này đặc biệt có lợi cho các nhà máy AI, cho phép họ tăng sức mạnh xử lý yêu cầu của người dùng trên mỗi GPU mà không ảnh hưởng đến chất lượng trải nghiệm của người dùng.

Các nghiên cứu gần đây, bao gồm đánh giá sâu rộng về cấu hình phần cứng với trình mô phỏng hiệu suất GPU, đã tiết lộ tác động của phân tích và song song mô hình lên thông lượng MoE. Kể từ khi các nhà nghiên cứu Google phát triển mô hình BERT vào năm 2018, trọng số mô hình đã tăng theo cấp số nhân, làm tăng kỳ vọng về thông lượng suy luận tạo sinh và tính tương tác. Để giải quyết vấn đề này, các mô hình hiện được phân vùng trên nhiều GPU và các kỹ thuật song song hóa như song song tenxơ (TP), song song đường ống (PP) và song song dữ liệu (DP) được sử dụng. Phục vụ phân tán, tách các giai đoạn điền trước và giải mã suy luận thành các GPU khác nhau, đã nổi lên như một cách để tối ưu hóa việc sử dụng tài nguyên và đáp ứng các thỏa thuận mức dịch vụ khác nhau cho từng giai đoạn.

NVIDIA Dynamo đang cách mạng hóa việc triển khai các mô hình MoE với khuôn khổ dịch vụ suy luận phân tán của mình. Khuôn khổ này được thiết kế để giải quyết sự phức tạp của các kiến ​​trúc dịch vụ phân tán. Dynamo tạo điều kiện chuyển nhanh bộ nhớ đệm KV giữa các GPU điền trước và giải mã và định tuyến thông minh các yêu cầu đến GPU phù hợp. Nó cũng mở rộng toàn bộ thiết lập để phù hợp với nhu cầu của người dùng, đảm bảo phân bổ tài nguyên hiệu quả và tuân thủ các thỏa thuận về mức dịch vụ. Công cụ Planner của khuôn khổ tự động cân bằng tỷ lệ yêu cầu giữa các giai đoạn điền trước và giải mã và thích ứng với các khối lượng công việc thay đổi để tối ưu hóa cấu hình tài nguyên GPU.

Kiến trúc NVIDIA GB200 NVL72 NVLink đóng vai trò quan trọng trong việc tối đa hóa hiệu suất của các mô hình MoE trong các cấu hình dịch vụ phân tán. Bằng cách cho phép giao tiếp băng thông cao, độ trễ thấp giữa các GPU, GB200 NVL72 ngăn chặn các giới hạn mạng cản trở các mẫu giao tiếp tất cả đến tất cả cần thiết cho các mô hình MoE. Kiến trúc hỗ trợ tối đa 72 GPU, cải thiện đáng kể tốc độ giao tiếp và cho phép vận hành hiệu quả nhiều cấu hình giải mã song song chuyên gia. Sự kết hợp giữa NVIDIA Dynamo và khả năng của GB200 NVL72 không chỉ cải thiện hiệu suất của các mô hình MoE mà còn mang lại lợi ích đáng kể trong việc cung cấp các mô hình mật độ cao truyền thống, dẫn đến thông lượng cao hơn và lợi nhuận bền vững cho các nhà máy AI.

Chia sẻ bài viết này:

Tin tức mới nhất
LINE Yahoo! AI Assistant ra mắt với tính năng mới.

LINE Yahoo! AI Assistant ra mắt với tính năng mới.

0:00 17/12/25

LINE Yahoo! (Tokyo) vừa ra mắt tính năng mới tích hợp chức năng "Trợ lý AI" vào ứng dụng "Yahoo! JAPAN".

Dịch vụ viết bài bằng AI của TechSuite hỗ trợ SEO/SEM

Dịch vụ viết bài bằng AI của TechSuite hỗ trợ SEO/SEM

0:00 17/12/25

TechSuite (Osaka) cung cấp "Bakuyasu AI Article Agency," một dịch vụ viết bài SEO/SEM sử dụng trí tuệ nhân tạo, trên nền tảng "Enmane," do Asset Technology (Osaka) vận hành.

Bộ sản phẩm AI Shift AI Worker đã ra mắt.

Bộ sản phẩm AI Shift AI Worker đã ra mắt.

0:00 17/12/25

Công ty AI Shift (quận Shibuya, Tokyo) sẽ ra mắt dịch vụ trợ lý ảo AI mang tên "AI Worker", kết hợp các "sản phẩm AI" chuyên dụng với các "giải pháp AI"

Ủng hộ sự kiện Giáng sinh do SHIFT AI tài trợ.

Ủng hộ sự kiện Giáng sinh do SHIFT AI tài trợ.

0:00 17/12/25

SHIFT AI (quận Shibuya, Tokyo) đang tài trợ cho một sự kiện Giáng sinh do Heartful Family (quận Shinjuku, Tokyo), một dịch vụ hỗ trợ các gia đình đơn thân, tổ chức.

Copyright © 2024 Generatived - All right Reserved.

Chia sẻ bài viết này:

Chia sẻ bài viết này:

Generatived AI Logo

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

  • Facebook
  • X

Hãy theo dõi chúng tôi

Ngôn ngữ

Tin tức mới nhất
LINE Yahoo! AI Assistant ra mắt với tính năng mới.

LINE Yahoo! AI Assistant ra mắt với tính năng mới.

0:00 17/12/25

LINE Yahoo! (Tokyo) vừa ra mắt tính năng mới tích hợp chức năng "Trợ lý AI" vào ứng dụng "Yahoo! JAPAN".

Dịch vụ viết bài bằng AI của TechSuite hỗ trợ SEO/SEM

Dịch vụ viết bài bằng AI của TechSuite hỗ trợ SEO/SEM

0:00 17/12/25

TechSuite (Osaka) cung cấp "Bakuyasu AI Article Agency," một dịch vụ viết bài SEO/SEM sử dụng trí tuệ nhân tạo, trên nền tảng "Enmane," do Asset Technology (Osaka) vận hành.

Bộ sản phẩm AI Shift AI Worker đã ra mắt.

Bộ sản phẩm AI Shift AI Worker đã ra mắt.

0:00 17/12/25

Công ty AI Shift (quận Shibuya, Tokyo) sẽ ra mắt dịch vụ trợ lý ảo AI mang tên "AI Worker", kết hợp các "sản phẩm AI" chuyên dụng với các "giải pháp AI"

Ủng hộ sự kiện Giáng sinh do SHIFT AI tài trợ.

Ủng hộ sự kiện Giáng sinh do SHIFT AI tài trợ.

0:00 17/12/25

SHIFT AI (quận Shibuya, Tokyo) đang tài trợ cho một sự kiện Giáng sinh do Heartful Family (quận Shinjuku, Tokyo), một dịch vụ hỗ trợ các gia đình đơn thân, tổ chức.

bottom of page