Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

NVIDIA ra mắt giải pháp suy luận phân tán dựa trên Kubernetes.

Generatived

0:00 25/3/26

Khi độ phức tạp của các tác vụ suy luận mô hình ngôn ngữ lớn (LLM) tăng lên, phương pháp phục vụ đơn tiến trình truyền thống đang đạt đến giới hạn của nó. Điều này đã dẫn đến việc áp dụng phương pháp phục vụ phân tách, tách biệt quy trình suy luận thành các giai đoạn riêng biệt như điền trước, giải mã và định tuyến. Mỗi giai đoạn hoạt động như một dịch vụ độc lập, cho phép phân bổ tài nguyên và mở rộng quy mô hiệu quả hơn.

Việc triển khai suy luận phân tách trên Kubernetes cung cấp khả năng sử dụng phần cứng linh hoạt và hiệu quả hơn, đặc biệt là GPU. Bằng cách chia nhỏ quy trình suy luận, mỗi giai đoạn có thể được tối ưu hóa riêng lẻ cho các nhu cầu tính toán cụ thể của nó. Ví dụ, các giai đoạn điền trước có thể tối đa hóa thông lượng GPU, trong khi các giai đoạn giải mã có thể tận dụng GPU với khả năng truy cập bộ nhớ băng thông cao và tốc độ nhanh. Sự tách biệt này cũng cho phép mở rộng quy mô độc lập của mỗi giai đoạn, đáp ứng hiệu quả hơn các mô hình nhu cầu khác nhau và cải thiện việc sử dụng GPU tổng thể.

Các framework như NVIDIA Dynamo và llm-d đã được phát triển để triển khai mô hình này, đặt ra câu hỏi về điều phối trên Kubernetes. Lập lịch đóng vai trò quan trọng trong hiệu suất suy luận đa pod, với các khả năng như lập lịch nhóm, lập lịch nhóm phân cấp và đặt vị trí dựa trên cấu trúc liên kết là chìa khóa để tối ưu hóa vị trí pod trên toàn cụm. Những khả năng này đảm bảo rằng các pod được đặt theo cách tối đa hóa hiệu suất và giảm thiểu tắc nghẽn.

Việc triển khai suy luận phân tán liên quan đến việc quản lý nhiều vai trò, mỗi vai trò có cấu hình tài nguyên và nhu cầu mở rộng khác nhau. Các API của Kubernetes như LeaderWorkerSet và NVIDIA Grove cho phép người dùng thể hiện cấu trúc của ứng dụng suy luận và xác định cách thức mở rộng quy mô. Các API này chuyển đổi ý định ở cấp độ ứng dụng thành các ràng buộc lập lịch cụ thể, sau đó được đáp ứng bởi các bộ lập lịch như KAI Scheduler. Sự phối hợp này rất cần thiết để duy trì các điều kiện thời gian chạy tối ưu cho khối lượng công việc AI.

Tóm lại, sự chuyển đổi sang phục vụ phân tán trên Kubernetes cung cấp một cách tiếp cận phù hợp hơn để quản lý khối lượng công việc suy luận LLM. Bằng cách cho phép mỗi giai đoạn của quy trình suy luận được cấp phát tài nguyên và mở rộng quy mô độc lập, các tổ chức có thể đạt được hiệu suất và sử dụng tài nguyên tốt hơn, cuối cùng dẫn đến hoạt động AI hiệu quả hơn.

Nguồn: Blog nhà phát triển NVIDIA

Chia sẻ bài viết này:

Tin tức mới nhất

Tomorrow Net Hokkaido Gas giới thiệu AI

0:00 25/3/26

Công ty Tomorrow Net (quận Shinagawa, Tokyo) thông báo rằng Công ty Khí đốt Hokkaido (Sapporo, Hokkaido) đã triển khai hệ thống trí tuệ nhân tạo "CAT.AI Multi-AI Agent for Voice"

đọc thêm

Giảm chi phí phát triển cho trí tuệ nhân tạo đồng minh độ phân giải cao

0:00 25/3/26

Hi-Res (Shinjuku-ku, Tokyo) và Allied Telesis (Shinagawa-ku, Tokyo) đã ký kết một thỏa thuận cơ bản nhằm tích hợp cơ sở hạ tầng GPU và thiết bị mạng.

đọc thêm

EEFUL DB ra mắt chuyên mục về việc ứng dụng trí tuệ nhân tạo trong môi trường chăm sóc điều dưỡng.

0:00 25/3/26

Công ty EEFUL Holdings (Minato-ku, Tokyo), đơn vị vận hành "EEFUL DB," đã ra mắt loạt bài viết mới "Kỹ thuật ứng dụng AI trong chăm sóc người bệnh,"

đọc thêm

BLAM sẽ triển khai trí tuệ nhân tạo "Claude" trên toàn công ty.

0:00 25/3/26

Công ty BLAM (Shinagawa-ku, Tokyo) thông báo sẽ triển khai AI "Claude" của Anthropic trên toàn công ty, đồng thời tiến hành thiết kế lại các công cụ nội bộ

đọc thêm

Chia sẻ bài viết này:

Danh mục

Trình nâng cao hình ảnh AI

Trình tạo mã AI

Quản lý tác vụ AI

Không có mã/mã thấp

Trình tạo thiết kế đồ họa AI

Trình tạo minh họa/nghệ thuật AI

Tất cả công cụ

Tin tức

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI sáng tạo

Hướng dẫn ứng dụng AI cơ bản

Hồ sơ công ty

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng trang web

Công ty điều hành

Hãy theo dõi chúng tôi

Ngôn ngữ

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Hãy theo dõi chúng tôi

Ngôn ngữ

Danh mục

Tất cả công cụ

Quản lý tác vụ AI

Trình tạo thiết kế đồ họa AI

Không có mã/mã thấp

Trình tạo mã AI

Trình nâng cao hình ảnh AI

Trình tạo minh họa/nghệ thuật AI

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI tạo ra

Hướng dẫn ứng dụng AI cơ bản

Tin tức

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng của trang web

Công ty điều hành

Hồ sơ công ty

Tin tức mới nhất

Tomorrow Net Hokkaido Gas giới thiệu AI

0:00 25/3/26

Công ty Tomorrow Net (quận Shinagawa, Tokyo) thông báo rằng Công ty Khí đốt Hokkaido (Sapporo, Hokkaido) đã triển khai hệ thống trí tuệ nhân tạo "CAT.AI Multi-AI Agent for Voice"

đọc thêm

Giảm chi phí phát triển cho trí tuệ nhân tạo đồng minh độ phân giải cao

0:00 25/3/26

Hi-Res (Shinjuku-ku, Tokyo) và Allied Telesis (Shinagawa-ku, Tokyo) đã ký kết một thỏa thuận cơ bản nhằm tích hợp cơ sở hạ tầng GPU và thiết bị mạng.

đọc thêm

EEFUL DB ra mắt chuyên mục về việc ứng dụng trí tuệ nhân tạo trong môi trường chăm sóc điều dưỡng.

0:00 25/3/26

Công ty EEFUL Holdings (Minato-ku, Tokyo), đơn vị vận hành "EEFUL DB," đã ra mắt loạt bài viết mới "Kỹ thuật ứng dụng AI trong chăm sóc người bệnh,"

đọc thêm

BLAM sẽ triển khai trí tuệ nhân tạo "Claude" trên toàn công ty.

0:00 25/3/26

Công ty BLAM (Shinagawa-ku, Tokyo) thông báo sẽ triển khai AI "Claude" của Anthropic trên toàn công ty, đồng thời tiến hành thiết kế lại các công cụ nội bộ

đọc thêm