Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

NVIDIA giới thiệu tính năng Lập lịch GPU thông minh cho LLM.

Generatived

0:00 3/3/26

Các tổ chức triển khai mô hình ngôn ngữ quy mô lớn (LLM) đang phải đối mặt với thách thức quản lý khối lượng công việc suy luận có nhu cầu tài nguyên rất khác nhau. Một mô hình nhỏ có thể chỉ cần bộ nhớ GPU tối thiểu, trong khi một mô hình với hơn 70 tỷ tham số có thể cần đến nhiều GPU. Sự chênh lệch này thường dẫn đến việc sử dụng tài nguyên GPU không hiệu quả, chi phí tính toán tăng cao và thời gian phản hồi không thể dự đoán được.

Vấn đề không chỉ đơn thuần là tăng số lượng tác vụ trên GPU; mà còn liên quan đến việc lập lịch thông minh. Nếu không có hệ thống điều phối nhận diện được các mô hình tác vụ suy luận, các thực thể sẽ phải lựa chọn giữa việc cấp phát quá mức, dẫn đến lãng phí tài nguyên, và cấp phát thiếu, có thể ảnh hưởng đến hiệu năng.

Giải pháp NIM của NVIDIA giải quyết vấn đề này bằng cách đóng gói các công cụ suy luận dưới dạng các dịch vụ vi mô được chứa trong container, điều này không chỉ chuẩn hóa việc triển khai mô hình mà còn cải thiện thông lượng và latency. Các dịch vụ vi mô này đi kèm với các môi trường chạy suy luận được cấu hình sẵn, API tiêu chuẩn ngành và các kỹ thuật tối ưu hóa mô hình. Chúng được thiết kế để sẵn sàng cho môi trường sản xuất, an toàn và tuân thủ các quy định, với sự hỗ trợ cấp doanh nghiệp từ NVIDIA.

Để tối đa hóa việc sử dụng GPU, NVIDIA Run:ai giới thiệu các chiến lược lập lịch thông minh thích ứng với hành vi của khối lượng công việc. Điều này bao gồm ưu tiên suy luận trước, phân bổ GPU với khả năng cách ly bộ nhớ hoàn toàn và quản lý bộ nhớ động. Các chiến lược này cho phép quản lý tài nguyên hiệu quả hơn, đảm bảo GPU được sử dụng hết tiềm năng trong khi giảm chi phí tính toán.

Kết quả kiểm tra hiệu năng cho thấy sự cải thiện đáng kể trong việc sử dụng GPU, với mức sử dụng gấp đôi mà tổn thất thông lượng tối thiểu, và thông lượng cao hơn tới 1,4 lần khi xử lý đồng thời nhiều yêu cầu bằng cách sử dụng phân chia động. Ngoài ra, các kỹ thuật hoán đổi bộ nhớ GPU đã được chứng minh là làm giảm đáng kể latency yêu cầu đầu tiên từ 44 đến 61 lần so với khởi động nguội từ 0.

Đối với các tổ chức muốn triển khai những chiến lược này, NVIDIA cung cấp hướng dẫn thực tiễn về cách sử dụng NIM với NVIDIA Run:ai. Điều này bao gồm quản lý khối lượng công việc AI với lập lịch thông minh và điều khiển GPU chi tiết, cũng như tận dụng tính năng cân bằng lưu lượng và tự động mở rộng quy mô tích hợp sẵn của Kubernetes. Những cập nhật này nhằm mục đích tăng cường khả năng kiểm soát truy cập, quản lý điểm cuối và khả năng hiển thị cho các nhóm xử lý ứng dụng AI.

Nguồn: Blog nhà phát triển NVIDIA

Chia sẻ bài viết này:

Tin tức mới nhất

bgmnow Trại huấn luyện AI sản xuất video nội bộ

0:00 5/3/26

bgmnow (Koto-ku, Tokyo) đang ra mắt "Khóa huấn luyện 3 ngày tự sản xuất video YouTube" và "Khóa huấn luyện AI 2 ngày dành cho người sáng tạo nội dung",

đọc thêm

Sự hài lòng của khách hàng được cải thiện nhờ việc giới thiệu các lời nhắc dữ liệu AI mới.

0:00 5/3/26

Công ty AI Data (Minato-ku, Tokyo) đã bổ sung sáu lời nhắc chuyên dụng vào phần mềm "AI ContactPro trên IDX" dành cho hoạt động hỗ trợ khách hàng.

đọc thêm

Thỏa thuận phát triển nguồn nhân lực AI thị trấn Kawanishi KIZASHI

0:00 5/3/26

KIZASHI (quận Shibuya, Tokyo) đã ký kết thỏa thuận hợp tác với thị trấn Kawanishi (huyện Ise, tỉnh Nara).

đọc thêm

Tính năng mới của Trí tuệ Nhân tạo Bất động sản (AI) thuộc SRE Holdings

0:00 5/3/26

Công ty SRE Holdings (Minato-ku, Tokyo) đã bổ sung gói dịch vụ mới "Dành cho Tổ chức Tài chính" vào dịch vụ định giá bất động sản bằng trí tuệ nhân tạo "SRE AI Appraisal CLOUD".

đọc thêm

Chia sẻ bài viết này:

Danh mục

Trình nâng cao hình ảnh AI

Trình tạo mã AI

Quản lý tác vụ AI

Không có mã/mã thấp

Trình tạo thiết kế đồ họa AI

Trình tạo minh họa/nghệ thuật AI

Tất cả công cụ

Tin tức

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI sáng tạo

Hướng dẫn ứng dụng AI cơ bản

Hồ sơ công ty

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng trang web

Công ty điều hành

Hãy theo dõi chúng tôi

Ngôn ngữ

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Hãy theo dõi chúng tôi

Ngôn ngữ

Danh mục

Tất cả công cụ

Quản lý tác vụ AI

Trình tạo thiết kế đồ họa AI

Không có mã/mã thấp

Trình tạo mã AI

Trình nâng cao hình ảnh AI

Trình tạo minh họa/nghệ thuật AI

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI tạo ra

Hướng dẫn ứng dụng AI cơ bản

Tin tức

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng của trang web

Công ty điều hành

Hồ sơ công ty

Tin tức mới nhất

bgmnow Trại huấn luyện AI sản xuất video nội bộ

0:00 5/3/26

bgmnow (Koto-ku, Tokyo) đang ra mắt "Khóa huấn luyện 3 ngày tự sản xuất video YouTube" và "Khóa huấn luyện AI 2 ngày dành cho người sáng tạo nội dung",

đọc thêm

Sự hài lòng của khách hàng được cải thiện nhờ việc giới thiệu các lời nhắc dữ liệu AI mới.

0:00 5/3/26

Công ty AI Data (Minato-ku, Tokyo) đã bổ sung sáu lời nhắc chuyên dụng vào phần mềm "AI ContactPro trên IDX" dành cho hoạt động hỗ trợ khách hàng.

đọc thêm

Thỏa thuận phát triển nguồn nhân lực AI thị trấn Kawanishi KIZASHI

0:00 5/3/26

KIZASHI (quận Shibuya, Tokyo) đã ký kết thỏa thuận hợp tác với thị trấn Kawanishi (huyện Ise, tỉnh Nara).

đọc thêm

Tính năng mới của Trí tuệ Nhân tạo Bất động sản (AI) thuộc SRE Holdings

0:00 5/3/26

Công ty SRE Holdings (Minato-ku, Tokyo) đã bổ sung gói dịch vụ mới "Dành cho Tổ chức Tài chính" vào dịch vụ định giá bất động sản bằng trí tuệ nhân tạo "SRE AI Appraisal CLOUD".

đọc thêm