top of page

Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

logo.png

Google Cloud công bố các phương pháp triển khai AI hiệu quả

Generatived

0:00 12/9/25

Google Cloud vừa công bố một giải pháp mới nhằm giải quyết những thách thức của kiến ​​trúc dịch vụ dựa trên GPU truyền thống và triển khai các mô hình AI hiệu quả hơn. Phương pháp mới này sử dụng phương pháp suy luận phân tán với NVIDIA Dynamo, giúp cải thiện hiệu suất và hiệu quả chi phí bằng cách tách biệt các giai đoạn xử lý của các mô hình AI. Đổi mới này đặc biệt hiệu quả đối với các mô hình Generative AI quy mô lớn, đòi hỏi triển khai phức tạp và tốn nhiều tài nguyên.

Giải pháp mới nhất của công ty giúp đơn giản hóa việc triển khai NVIDIA Dynamo trên siêu máy tính AI bao gồm Google Kubernetes Engine (GKE), công cụ suy luận vLLM và các phiên bản A3 Ultra được tăng tốc bởi GPU NVIDIA H200. Cấu hình này được thiết kế để mang lại hiệu suất và hiệu quả suy luận cao hơn, đồng thời đáp ứng các yêu cầu về latency của các ứng dụng AI. Các nhà phát triển và kỹ sư ML có thể truy cập các công thức và tài nguyên bổ sung trên GitHub để tích hợp giải pháp này vào các dự án AI của họ.

Phương pháp suy luận AI của Google Cloud bao gồm hai giai đoạn tính toán riêng biệt: giai đoạn tiền xử lý các yêu cầu đầu vào và tận dụng sức mạnh xử lý song song, và giai đoạn giải mã tạo ra phản hồi và yêu cầu truy cập bộ nhớ nhanh. Kiến trúc mới của chúng tôi phân tách các giai đoạn này thành các nhóm GPU khác nhau, ngăn ngừa tranh chấp tài nguyên và cải thiện việc sử dụng GPU. Điều này giúp giảm chi phí và latency suy luận, một cải tiến đáng kể so với các kiến ​​trúc trước đây, nơi cả hai giai đoạn đều chạy trên cùng một GPU.

Kiến trúc suy luận phân tán sử dụng GKE để quản lý các nhóm nút riêng biệt của các phiên bản A3 Ultra, sử dụng NVIDIA Dynamo làm máy chủ suy luận và công cụ suy luận vLLM để tính toán. Điều này cho phép mỗi giai đoạn mở rộng độc lập, đảm bảo việc xử lý nhanh chóng không làm chậm quá trình tạo mã thông báo. Giải pháp hỗ trợ nhiều công cụ suy luận khác nhau, mang lại những cải tiến đáng kể về thông lượng và hiệu suất GPU.

Chia sẻ bài viết này:

Tin tức mới nhất
Công cụ khắc phục sự cố Spark mới trên Google Cloud

Công cụ khắc phục sự cố Spark mới trên Google Cloud

0:00 12/9/25

Google Cloud (California, Hoa Kỳ) đã phát hành bản xem trước công khai của Gemini Cloud Assist Investigations, một công cụ mới hỗ trợ khắc phục sự cố Apache Spark.

Hỗ trợ dịch vụ hành chính AI của Microsoft Osaka

Hỗ trợ dịch vụ hành chính AI của Microsoft Osaka

0:00 12/9/25

Microsoft (Osaka) đã công bố một dự án mới hợp tác với Tỉnh Osaka (Osaka) nhằm mục đích cải thiện các dịch vụ của chính phủ bằng cách sử dụng các tác nhân AI.

NVIDIA RTX PRO 6000 tăng tốc quá trình suy luận cấu trúc protein

NVIDIA RTX PRO 6000 tăng tốc quá trình suy luận cấu trúc protein

0:00 12/9/25

NVIDIA vừa công bố GPU RTX PRO 6000 Blackwell Server Edition giúp cải thiện đáng kể tốc độ suy luận cấu trúc protein.

Google Cloud công bố các phương pháp triển khai AI hiệu quả

Google Cloud công bố các phương pháp triển khai AI hiệu quả

0:00 12/9/25

Google Cloud đã công bố giải pháp mới nhằm giải quyết những thách thức của kiến ​​trúc dịch vụ dựa trên GPU truyền thống và triển khai các mô hình AI hiệu quả hơn.

Copyright © 2024 Generatived - All right Reserved.

Chia sẻ bài viết này:

Chia sẻ bài viết này:

Generatived AI Logo

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

  • Facebook
  • X

Hãy theo dõi chúng tôi

Ngôn ngữ

Tin tức mới nhất
Công cụ khắc phục sự cố Spark mới trên Google Cloud

Công cụ khắc phục sự cố Spark mới trên Google Cloud

0:00 12/9/25

Google Cloud (California, Hoa Kỳ) đã phát hành bản xem trước công khai của Gemini Cloud Assist Investigations, một công cụ mới hỗ trợ khắc phục sự cố Apache Spark.

Hỗ trợ dịch vụ hành chính AI của Microsoft Osaka

Hỗ trợ dịch vụ hành chính AI của Microsoft Osaka

0:00 12/9/25

Microsoft (Osaka) đã công bố một dự án mới hợp tác với Tỉnh Osaka (Osaka) nhằm mục đích cải thiện các dịch vụ của chính phủ bằng cách sử dụng các tác nhân AI.

NVIDIA RTX PRO 6000 tăng tốc quá trình suy luận cấu trúc protein

NVIDIA RTX PRO 6000 tăng tốc quá trình suy luận cấu trúc protein

0:00 12/9/25

NVIDIA vừa công bố GPU RTX PRO 6000 Blackwell Server Edition giúp cải thiện đáng kể tốc độ suy luận cấu trúc protein.

Google Cloud công bố các phương pháp triển khai AI hiệu quả

Google Cloud công bố các phương pháp triển khai AI hiệu quả

0:00 12/9/25

Google Cloud đã công bố giải pháp mới nhằm giải quyết những thách thức của kiến ​​trúc dịch vụ dựa trên GPU truyền thống và triển khai các mô hình AI hiệu quả hơn.

bottom of page