Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo
%20(1).webp)
Google Cloud ra mắt dịch vụ suy luận cho LLM
Generatived
5:00 21/2/25
Các mô hình ngôn ngữ lớn (LLM) đã trở nên thiết yếu đối với các ứng dụng hiện đại, nhưng sự phụ thuộc vào API của bên thứ ba có thể cản trở sự nhanh nhẹn của nhà phát triển. Để giải quyết vấn đề này, Inference-as-a-Service đã nổi lên như một giải pháp khả thi, cho phép các ứng dụng giao tiếp với LLM với chi phí vận hành tối thiểu. Cách tiếp cận này hợp lý hóa quy trình phát triển vì các nhà phát triển có thể chạy mã tương tác với LLM mà không phải chịu gánh nặng quản lý cơ sở hạ tầng.
Cloud Run, nền tảng container không máy chủ của Google Cloud, cung cấp một môi trường phù hợp cho các ứng dụng chạy bằng LLM. Các nhà phát triển có thể tận dụng thời gian chạy container mà không cần phải đào sâu vào cơ sở hạ tầng cơ bản. Cloud Run tiết kiệm chi phí vì bạn chỉ phải trả tiền khi dịch vụ đang hoạt động. Nền tảng này hỗ trợ triển khai LLM mở với hỗ trợ GPU, cải thiện hiệu suất và giảm latency.
Vertex AI, nền tảng AI/ML toàn diện của Google Cloud, cung cấp các công cụ bạn cần để đào tạo và phục vụ các mô hình ML. Nó có một khu vườn mô hình với nhiều mô hình nền tảng, bao gồm các tùy chọn độc quyền, của bên thứ ba và mã nguồn mở. Các nhà phát triển có thể kích hoạt API Gemini trong Vertex AI và triển khai các ứng dụng của họ lên Cloud Run để có giao diện liền mạch với nền tảng AI. Việc tích hợp GPU vào Cloud Run mang lại sự linh hoạt chưa từng có, cho phép bạn trực tiếp chứa và triển khai các LLM có thể mở rộng quy mô theo nhu cầu một cách năng động.
Để tùy chỉnh thêm các phản hồi LLM, Search Augmentation Generation (RAG) được sử dụng. RAG tận dụng cơ sở dữ liệu vector để lưu trữ các nhúng dữ liệu và cung cấp cho LLM ngữ cảnh để tạo ra các phản hồi chính xác. Trong kiến trúc này, Cloud Run điều phối các tương tác giữa Vertex AI và cơ sở dữ liệu vector và quản lý luồng dữ liệu RAG để truy xuất hiệu quả thông tin liên quan đến ngữ cảnh cho LLM. Thiết lập này là ứng dụng thực tế của Inference-as-a-Service, hợp lý hóa quy trình điều chỉnh đầu ra LLM cho các miền hoặc tập dữ liệu cụ thể.
Chia sẻ bài viết này:
Tin tức mới nhất
Tích hợp đăng nhập một lần HENNGE x Allganize
0:00 13/6/25
HENNGE (Shibuya-ku, Tokyo) thông báo rằng dịch vụ bảo mật đám mây "HENNGE One" sẽ được tích hợp với "Alli LLM App Market" của Allganize Japan (Shibuya-ku, Tokyo)
NHẬT BẢN AI Hơn 100 tác nhân AI cho doanh nghiệp
0:00 13/6/25
JAPAN AI (Shinjuku-ku, Tokyo) thông báo rằng số lượng bản phát hành chính thức của các tác nhân AI dành cho doanh nghiệp đã vượt quá 100.
Giải pháp cải thiện hiệu suất chip AI proteanTecs
0:00 13/6/25
proteanTecs (Haifa) cung cấp các giải pháp nhúng dành riêng cho chip AI và đã giành được sự tin tưởng của các nhà sản xuất chip AI.
Copyright © 2024 Generatived - All right Reserved.
Chia sẻ bài viết này:
Chia sẻ bài viết này:
Danh mục
Tin tức
AI và luật/hệ thống/kinh tế/xã hội
Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.
Tin tức mới nhất
Tích hợp đăng nhập một lần HENNGE x Allganize
0:00 13/6/25
HENNGE (Shibuya-ku, Tokyo) thông báo rằng dịch vụ bảo mật đám mây "HENNGE One" sẽ được tích hợp với "Alli LLM App Market" của Allganize Japan (Shibuya-ku, Tokyo)
NHẬT BẢN AI Hơn 100 tác nhân AI cho doanh nghiệp
0:00 13/6/25
JAPAN AI (Shinjuku-ku, Tokyo) thông báo rằng số lượng bản phát hành chính thức của các tác nhân AI dành cho doanh nghiệp đã vượt quá 100.
Giải pháp cải thiện hiệu suất chip AI proteanTecs
0:00 13/6/25
proteanTecs (Haifa) cung cấp các giải pháp nhúng dành riêng cho chip AI và đã giành được sự tin tưởng của các nhà sản xuất chip AI.