Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

NVIDIA giới thiệu tính năng Lập lịch GPU thông minh cho LLM.
Generatived
0:00 3/3/26
Các tổ chức triển khai mô hình ngôn ngữ quy mô lớn (LLM) đang phải đối mặt với thách thức quản lý khối lượng công việc suy luận có nhu cầu tài nguyên rất khác nhau. Một mô hình nhỏ có thể chỉ cần bộ nhớ GPU tối thiểu, trong khi một mô hình với hơn 70 tỷ tham số có thể cần đến nhiều GPU. Sự chênh lệch này thường dẫn đến việc sử dụng tài nguyên GPU không hiệu quả, chi phí tính toán tăng cao và thời gian phản hồi không thể dự đoán được.
Vấn đề không chỉ đơn thuần là tăng số lượng tác vụ trên GPU; mà còn liên quan đến việc lập lịch thông minh. Nếu không có hệ thống điều phối nhận diện được các mô hình tác vụ suy luận, các thực thể sẽ phải lựa chọn giữa việc cấp phát quá mức, dẫn đến lãng phí tài nguyên, và cấp phát thiếu, có thể ảnh hưởng đến hiệu năng.
Giải pháp NIM của NVIDIA giải quyết vấn đề này bằng cách đóng gói các công cụ suy luận dưới dạng các dịch vụ vi mô được chứa trong container, điều này không chỉ chuẩn hóa việc triển khai mô hình mà còn cải thiện thông lượng và latency. Các dịch vụ vi mô này đi kèm với các môi trường chạy suy luận được cấu hình sẵn, API tiêu chuẩn ngành và các kỹ thuật tối ưu hóa mô hình. Chúng được thiết kế để sẵn sàng cho môi trường sản xuất, an toàn và tuân thủ các quy định, với sự hỗ trợ cấp doanh nghiệp từ NVIDIA.
Để tối đa hóa việc sử dụng GPU, NVIDIA Run:ai giới thiệu các chiến lược lập lịch thông minh thích ứng với hành vi của khối lượng công việc. Điều này bao gồm ưu tiên suy luận trước, phân bổ GPU với khả năng cách ly bộ nhớ hoàn toàn và quản lý bộ nhớ động. Các chiến lược này cho phép quản lý tài nguyên hiệu quả hơn, đảm bảo GPU được sử dụng hết tiềm năng trong khi giảm chi phí tính toán.
Kết quả kiểm tra hiệu năng cho thấy sự cải thiện đáng kể trong việc sử dụng GPU, với mức sử dụng gấp đôi mà tổn thất thông lượng tối thiểu, và thông lượng cao hơn tới 1,4 lần khi xử lý đồng thời nhiều yêu cầu bằng cách sử dụng phân chia động. Ngoài ra, các kỹ thuật hoán đổi bộ nhớ GPU đã được chứng minh là làm giảm đáng kể latency yêu cầu đầu tiên từ 44 đến 61 lần so với khởi động nguội từ 0.
Đối với các tổ chức muốn triển khai những chiến lược này, NVIDIA cung cấp hướng dẫn thực tiễn về cách sử dụng NIM với NVIDIA Run:ai. Điều này bao gồm quản lý khối lượng công việc AI với lập lịch thông minh và điều khiển GPU chi tiết, cũng như tận dụng tính năng cân bằng lưu lượng và tự động mở rộng quy mô tích hợp sẵn của Kubernetes. Những cập nhật này nhằm mục đích tăng cường khả năng kiểm soát truy cập, quản lý điểm cuối và khả năng hiển thị cho các nhóm xử lý ứng dụng AI.
Chia sẻ bài viết này:
Tin tức mới nhất
NVIDIA Aerial Omniverse cho phép mạng AI 6G hiệu quả.
0:00 3/3/26
NVIDIA đã giới thiệu một giải pháp cho một thách thức quan trọng trong ngành viễn thông: việc tạo ra các mạng lưới tích hợp trí tuệ nhân tạo (AI) cho công nghệ 6G.
NVIDIA và Tech Mahindra hợp tác để phát triển mạng viễn thông dựa trên trí tuệ nhân tạo.
0:00 3/3/26
Báo cáo mới nhất của NVIDIA cho thấy 65% các nhà khai thác viễn thông coi AI là yếu tố thiết yếu cho tự động hóa mạng
Alibaba ra mắt Qwen3.5, nền tảng nâng cao khả năng tương tác đa phương thức.
0:00 3/3/26
Alibaba vừa công bố dòng sản phẩm mã nguồn mở Qwen3.5 mới nhất, được thiết kế để tăng cường khả năng xử lý ngôn ngữ và hình ảnh cho các tác nhân đa phương thức.
Copyright © 2024 Generatived - All right Reserved.
Chia sẻ bài viết này:
Chia sẻ bài viết này:
Danh mục
Tin tức
AI và luật/hệ thống/kinh tế/xã hội
Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.
Tin tức mới nhất
NVIDIA Aerial Omniverse cho phép mạng AI 6G hiệu quả.
0:00 3/3/26
NVIDIA đã giới thiệu một giải pháp cho một thách thức quan trọng trong ngành viễn thông: việc tạo ra các mạng lưới tích hợp trí tuệ nhân tạo (AI) cho công nghệ 6G.
NVIDIA và Tech Mahindra hợp tác để phát triển mạng viễn thông dựa trên trí tuệ nhân tạo.
0:00 3/3/26
Báo cáo mới nhất của NVIDIA cho thấy 65% các nhà khai thác viễn thông coi AI là yếu tố thiết yếu cho tự động hóa mạng
Alibaba ra mắt Qwen3.5, nền tảng nâng cao khả năng tương tác đa phương thức.
0:00 3/3/26
Alibaba vừa công bố dòng sản phẩm mã nguồn mở Qwen3.5 mới nhất, được thiết kế để tăng cường khả năng xử lý ngôn ngữ và hình ảnh cho các tác nhân đa phương thức.



%20(1).webp)

