top of page

Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

logo.png

NVIDIA ra mắt giải pháp suy luận phân tán dựa trên Kubernetes.

Generatived

0:00 25/3/26

Khi độ phức tạp của các tác vụ suy luận mô hình ngôn ngữ lớn (LLM) tăng lên, phương pháp phục vụ đơn tiến trình truyền thống đang đạt đến giới hạn của nó. Điều này đã dẫn đến việc áp dụng phương pháp phục vụ phân tách, tách biệt quy trình suy luận thành các giai đoạn riêng biệt như điền trước, giải mã và định tuyến. Mỗi giai đoạn hoạt động như một dịch vụ độc lập, cho phép phân bổ tài nguyên và mở rộng quy mô hiệu quả hơn.

Việc triển khai suy luận phân tách trên Kubernetes cung cấp khả năng sử dụng phần cứng linh hoạt và hiệu quả hơn, đặc biệt là GPU. Bằng cách chia nhỏ quy trình suy luận, mỗi giai đoạn có thể được tối ưu hóa riêng lẻ cho các nhu cầu tính toán cụ thể của nó. Ví dụ, các giai đoạn điền trước có thể tối đa hóa thông lượng GPU, trong khi các giai đoạn giải mã có thể tận dụng GPU với khả năng truy cập bộ nhớ băng thông cao và tốc độ nhanh. Sự tách biệt này cũng cho phép mở rộng quy mô độc lập của mỗi giai đoạn, đáp ứng hiệu quả hơn các mô hình nhu cầu khác nhau và cải thiện việc sử dụng GPU tổng thể.

Các framework như NVIDIA Dynamo và llm-d đã được phát triển để triển khai mô hình này, đặt ra câu hỏi về điều phối trên Kubernetes. Lập lịch đóng vai trò quan trọng trong hiệu suất suy luận đa pod, với các khả năng như lập lịch nhóm, lập lịch nhóm phân cấp và đặt vị trí dựa trên cấu trúc liên kết là chìa khóa để tối ưu hóa vị trí pod trên toàn cụm. Những khả năng này đảm bảo rằng các pod được đặt theo cách tối đa hóa hiệu suất và giảm thiểu tắc nghẽn.

Việc triển khai suy luận phân tán liên quan đến việc quản lý nhiều vai trò, mỗi vai trò có cấu hình tài nguyên và nhu cầu mở rộng khác nhau. Các API của Kubernetes như LeaderWorkerSet và NVIDIA Grove cho phép người dùng thể hiện cấu trúc của ứng dụng suy luận và xác định cách thức mở rộng quy mô. Các API này chuyển đổi ý định ở cấp độ ứng dụng thành các ràng buộc lập lịch cụ thể, sau đó được đáp ứng bởi các bộ lập lịch như KAI Scheduler. Sự phối hợp này rất cần thiết để duy trì các điều kiện thời gian chạy tối ưu cho khối lượng công việc AI.

Tóm lại, sự chuyển đổi sang phục vụ phân tán trên Kubernetes cung cấp một cách tiếp cận phù hợp hơn để quản lý khối lượng công việc suy luận LLM. Bằng cách cho phép mỗi giai đoạn của quy trình suy luận được cấp phát tài nguyên và mở rộng quy mô độc lập, các tổ chức có thể đạt được hiệu suất và sử dụng tài nguyên tốt hơn, cuối cùng dẫn đến hoạt động AI hiệu quả hơn.

Chia sẻ bài viết này:

Tin tức mới nhất
Tomorrow Net Hokkaido Gas giới thiệu AI

Tomorrow Net Hokkaido Gas giới thiệu AI

0:00 25/3/26

Công ty Tomorrow Net (quận Shinagawa, Tokyo) thông báo rằng Công ty Khí đốt Hokkaido (Sapporo, Hokkaido) đã triển khai hệ thống trí tuệ nhân tạo "CAT.AI Multi-AI Agent for Voice"

Giảm chi phí phát triển cho trí tuệ nhân tạo đồng minh độ phân giải cao

Giảm chi phí phát triển cho trí tuệ nhân tạo đồng minh độ phân giải cao

0:00 25/3/26

Hi-Res (Shinjuku-ku, Tokyo) và Allied Telesis (Shinagawa-ku, Tokyo) đã ký kết một thỏa thuận cơ bản nhằm tích hợp cơ sở hạ tầng GPU và thiết bị mạng.

EEFUL DB ra mắt chuyên mục về việc ứng dụng trí tuệ nhân tạo trong môi trường chăm sóc điều dưỡng.

EEFUL DB ra mắt chuyên mục về việc ứng dụng trí tuệ nhân tạo trong môi trường chăm sóc điều dưỡng.

0:00 25/3/26

Công ty EEFUL Holdings (Minato-ku, Tokyo), đơn vị vận hành "EEFUL DB," đã ra mắt loạt bài viết mới "Kỹ thuật ứng dụng AI trong chăm sóc người bệnh,"

BLAM sẽ triển khai trí tuệ nhân tạo "Claude" trên toàn công ty.

BLAM sẽ triển khai trí tuệ nhân tạo "Claude" trên toàn công ty.

0:00 25/3/26

Công ty BLAM (Shinagawa-ku, Tokyo) thông báo sẽ triển khai AI "Claude" của Anthropic trên toàn công ty, đồng thời tiến hành thiết kế lại các công cụ nội bộ

Copyright © 2024 Generatived - All right Reserved.

Chia sẻ bài viết này:

Chia sẻ bài viết này:

Generatived AI Logo

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

  • Facebook
  • X

Hãy theo dõi chúng tôi

Ngôn ngữ

Tin tức mới nhất
Tomorrow Net Hokkaido Gas giới thiệu AI

Tomorrow Net Hokkaido Gas giới thiệu AI

0:00 25/3/26

Công ty Tomorrow Net (quận Shinagawa, Tokyo) thông báo rằng Công ty Khí đốt Hokkaido (Sapporo, Hokkaido) đã triển khai hệ thống trí tuệ nhân tạo "CAT.AI Multi-AI Agent for Voice"

Giảm chi phí phát triển cho trí tuệ nhân tạo đồng minh độ phân giải cao

Giảm chi phí phát triển cho trí tuệ nhân tạo đồng minh độ phân giải cao

0:00 25/3/26

Hi-Res (Shinjuku-ku, Tokyo) và Allied Telesis (Shinagawa-ku, Tokyo) đã ký kết một thỏa thuận cơ bản nhằm tích hợp cơ sở hạ tầng GPU và thiết bị mạng.

EEFUL DB ra mắt chuyên mục về việc ứng dụng trí tuệ nhân tạo trong môi trường chăm sóc điều dưỡng.

EEFUL DB ra mắt chuyên mục về việc ứng dụng trí tuệ nhân tạo trong môi trường chăm sóc điều dưỡng.

0:00 25/3/26

Công ty EEFUL Holdings (Minato-ku, Tokyo), đơn vị vận hành "EEFUL DB," đã ra mắt loạt bài viết mới "Kỹ thuật ứng dụng AI trong chăm sóc người bệnh,"

BLAM sẽ triển khai trí tuệ nhân tạo "Claude" trên toàn công ty.

BLAM sẽ triển khai trí tuệ nhân tạo "Claude" trên toàn công ty.

0:00 25/3/26

Công ty BLAM (Shinagawa-ku, Tokyo) thông báo sẽ triển khai AI "Claude" của Anthropic trên toàn công ty, đồng thời tiến hành thiết kế lại các công cụ nội bộ

bottom of page