Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

Google Cloud công bố các phương pháp triển khai AI hiệu quả

Generatived

0:00 12/9/25

Google Cloud vừa công bố một giải pháp mới nhằm giải quyết những thách thức của kiến trúc dịch vụ dựa trên GPU truyền thống và triển khai các mô hình AI hiệu quả hơn. Phương pháp mới này sử dụng phương pháp suy luận phân tán với NVIDIA Dynamo, giúp cải thiện hiệu suất và hiệu quả chi phí bằng cách tách biệt các giai đoạn xử lý của các mô hình AI. Đổi mới này đặc biệt hiệu quả đối với các mô hình Generative AI quy mô lớn, đòi hỏi triển khai phức tạp và tốn nhiều tài nguyên.

Giải pháp mới nhất của công ty giúp đơn giản hóa việc triển khai NVIDIA Dynamo trên siêu máy tính AI bao gồm Google Kubernetes Engine (GKE), công cụ suy luận vLLM và các phiên bản A3 Ultra được tăng tốc bởi GPU NVIDIA H200. Cấu hình này được thiết kế để mang lại hiệu suất và hiệu quả suy luận cao hơn, đồng thời đáp ứng các yêu cầu về latency của các ứng dụng AI. Các nhà phát triển và kỹ sư ML có thể truy cập các công thức và tài nguyên bổ sung trên GitHub để tích hợp giải pháp này vào các dự án AI của họ.

Phương pháp suy luận AI của Google Cloud bao gồm hai giai đoạn tính toán riêng biệt: giai đoạn tiền xử lý các yêu cầu đầu vào và tận dụng sức mạnh xử lý song song, và giai đoạn giải mã tạo ra phản hồi và yêu cầu truy cập bộ nhớ nhanh. Kiến trúc mới của chúng tôi phân tách các giai đoạn này thành các nhóm GPU khác nhau, ngăn ngừa tranh chấp tài nguyên và cải thiện việc sử dụng GPU. Điều này giúp giảm chi phí và latency suy luận, một cải tiến đáng kể so với các kiến trúc trước đây, nơi cả hai giai đoạn đều chạy trên cùng một GPU.

Kiến trúc suy luận phân tán sử dụng GKE để quản lý các nhóm nút riêng biệt của các phiên bản A3 Ultra, sử dụng NVIDIA Dynamo làm máy chủ suy luận và công cụ suy luận vLLM để tính toán. Điều này cho phép mỗi giai đoạn mở rộng độc lập, đảm bảo việc xử lý nhanh chóng không làm chậm quá trình tạo mã thông báo. Giải pháp hỗ trợ nhiều công cụ suy luận khác nhau, mang lại những cải tiến đáng kể về thông lượng và hiệu suất GPU.

Nguồn: Thông cáo báo chí

Chia sẻ bài viết này:

Tin tức mới nhất

Công cụ khắc phục sự cố Spark mới trên Google Cloud

0:00 12/9/25

Google Cloud (California, Hoa Kỳ) đã phát hành bản xem trước công khai của Gemini Cloud Assist Investigations, một công cụ mới hỗ trợ khắc phục sự cố Apache Spark.

đọc thêm

Hỗ trợ dịch vụ hành chính AI của Microsoft Osaka

0:00 12/9/25

Microsoft (Osaka) đã công bố một dự án mới hợp tác với Tỉnh Osaka (Osaka) nhằm mục đích cải thiện các dịch vụ của chính phủ bằng cách sử dụng các tác nhân AI.

đọc thêm

NVIDIA RTX PRO 6000 tăng tốc quá trình suy luận cấu trúc protein

0:00 12/9/25

NVIDIA vừa công bố GPU RTX PRO 6000 Blackwell Server Edition giúp cải thiện đáng kể tốc độ suy luận cấu trúc protein.

đọc thêm

Google Cloud công bố các phương pháp triển khai AI hiệu quả

0:00 12/9/25

Google Cloud đã công bố giải pháp mới nhằm giải quyết những thách thức của kiến trúc dịch vụ dựa trên GPU truyền thống và triển khai các mô hình AI hiệu quả hơn.

đọc thêm

Chia sẻ bài viết này:

Danh mục

Trình nâng cao hình ảnh AI

Trình tạo mã AI

Quản lý tác vụ AI

Không có mã/mã thấp

Trình tạo thiết kế đồ họa AI

Trình tạo minh họa/nghệ thuật AI

Tất cả công cụ

Tin tức

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI sáng tạo

Hướng dẫn ứng dụng AI cơ bản

Hồ sơ công ty

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng trang web

Công ty điều hành

Hãy theo dõi chúng tôi

Ngôn ngữ

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Hãy theo dõi chúng tôi

Ngôn ngữ

Danh mục

Tất cả công cụ

Quản lý tác vụ AI

Trình tạo thiết kế đồ họa AI

Không có mã/mã thấp

Trình tạo mã AI

Trình nâng cao hình ảnh AI

Trình tạo minh họa/nghệ thuật AI

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI tạo ra

Hướng dẫn ứng dụng AI cơ bản

Tin tức

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng của trang web

Công ty điều hành

Hồ sơ công ty

Tin tức mới nhất

Công cụ khắc phục sự cố Spark mới trên Google Cloud

0:00 12/9/25

Google Cloud (California, Hoa Kỳ) đã phát hành bản xem trước công khai của Gemini Cloud Assist Investigations, một công cụ mới hỗ trợ khắc phục sự cố Apache Spark.

đọc thêm

Hỗ trợ dịch vụ hành chính AI của Microsoft Osaka

0:00 12/9/25

Microsoft (Osaka) đã công bố một dự án mới hợp tác với Tỉnh Osaka (Osaka) nhằm mục đích cải thiện các dịch vụ của chính phủ bằng cách sử dụng các tác nhân AI.

đọc thêm

NVIDIA RTX PRO 6000 tăng tốc quá trình suy luận cấu trúc protein

0:00 12/9/25

NVIDIA vừa công bố GPU RTX PRO 6000 Blackwell Server Edition giúp cải thiện đáng kể tốc độ suy luận cấu trúc protein.

đọc thêm

Google Cloud công bố các phương pháp triển khai AI hiệu quả

0:00 12/9/25

Google Cloud đã công bố giải pháp mới nhằm giải quyết những thách thức của kiến trúc dịch vụ dựa trên GPU truyền thống và triển khai các mô hình AI hiệu quả hơn.

đọc thêm