Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

Perplexity AI áp dụng công nghệ NVIDIA để mở rộng quy mô AI

Generatived

4:30 6/12/24

Perplexity AI, một công cụ tìm kiếm được hỗ trợ bởi AI, tận dụng công nghệ tiên tiến của NVIDIA để đáp ứng nhu cầu ngày càng tăng về các dịch vụ AI. Xử lý hơn 435 triệu truy vấn mỗi tháng, nhóm suy luận của Perplexity AI sử dụng GPU NVIDIA H100 Tensor Core, NVIDIA Triton Inference Server và NVIDIA TensorRT-LLM để tạo ra các mô hình ngôn ngữ quy mô lớn (LLM) hiệu quả về mặt chi phí.

Perplexity AI vận hành đồng thời hơn 20 mô hình AI, bao gồm nhiều biến thể mô hình Llama 3.1 khác nhau, để phù hợp với cơ sở người dùng rộng lớn của nó. Công ty sử dụng các mô hình phân loại nhỏ hơn để xác định mục đích của người dùng và hướng các nhiệm vụ đến LLM thích hợp được lưu trữ trên nhóm GPU. Các nhóm này được hỗ trợ bởi GPU NVIDIA H100, được quản lý bởi các phiên bản Máy chủ suy luận NVIDIA Triton và tuân thủ các thỏa thuận cấp độ dịch vụ (SLA) nghiêm ngặt về chi phí và trải nghiệm người dùng.

Cơ sở hạ tầng của Perplexity AI được thiết kế cho các cụm Kubernetes để lưu trữ các nhóm GPU và xử lý lưu lượng biến động. Bộ lập lịch giao diện người dùng nội bộ định tuyến lưu lượng truy cập một cách thông minh để duy trì SLA. Máy chủ suy luận Triton đóng vai trò quan trọng bằng cách cung cấp các mô hình được tối ưu hóa, phân nhóm yêu cầu và cung cấp các số liệu sử dụng GPU để giúp mở rộng quy mô tài nguyên theo nhu cầu suy luận.

Nhóm Suy luận bối rối cam kết đáp ứng SLA nghiêm ngặt đồng thời tối ưu hóa chi phí. Thông qua thử nghiệm A/B rộng rãi, chúng tôi xác định cấu hình tốt nhất cho các trường hợp sử dụng khác nhau và tập trung vào việc tối đa hóa việc sử dụng GPU. Chúng tôi tiến hành phân tích hiệu suất chi tiết của các mô hình hướng tới người dùng, xem xét các số liệu như thời gian tạo ra mã thông báo đầu tiên và giá mỗi triệu truy vấn. Chúng tôi sử dụng các chiến lược cân bằng tải và song song mô hình để cải thiện hiệu suất trong phạm vi ngân sách GPU.

Perplexity AI đã tiết kiệm đáng kể chi phí bằng cách lưu trữ các mô hình của mình trên GPU NVIDIA được lưu trữ trên đám mây thay vì dựa vào API LLM của bên thứ ba. Ví dụ: tính năng câu hỏi liên quan, gợi ý các truy vấn tiếp theo, được ước tính sẽ tiết kiệm cho công ty khoảng 1 triệu USD mỗi năm.

Cách tiếp cận hiệu suất của Perplexity AI bao gồm tối ưu hóa mọi lớp của ngăn xếp, từ ứng dụng đến bộ tăng tốc phần cứng. Công ty đang khám phá cách tiếp cận dịch vụ phân tán bằng cách sử dụng NVIDIA Triton và rất vui mừng về tiềm năng của nền tảng NVIDIA Blackwell, dự kiến sẽ cải thiện hiệu suất suy luận cho LLM nghìn tỷ tham số lên 30 lần. Việc công ty sử dụng các dự án nguồn mở như NVIDIA Triton Inference Server và NVIDIA TensorRT, có sẵn dưới dạng GitHub và Docker, nhấn mạnh cam kết của công ty đối với sự đổi mới và hiệu suất trong các dịch vụ AI.

Nguồn: Blog nhà phát triển NVIDIA

Chia sẻ bài viết này:

Tin tức mới nhất

Microsoft chia sẻ các phương pháp đánh giá rủi ro doanh nghiệp.

0:00 1/5/26

Microsoft cho biết Phó Giám đốc An ninh Thông tin (CISO) Rico Mariani đã vạch ra các phương pháp chính để đánh giá rủi ro doanh nghiệp khi hoạt động đe dọa mạng gia tăng cùng

đọc thêm

NVIDIA mở rộng hướng dẫn về kiến trúc nhà máy AI dành cho doanh nghiệp.

0:00 1/5/26

NVIDIA đã trình bày chi tiết Kiến trúc Tham chiếu Doanh nghiệp và cấu hình nhà máy AI được thiết kế để hỗ trợ triển khai hệ thống AI tác nhân và AI tạo sinh trong môi trường tại chỗ.

đọc thêm

OpenAI mở rộng cơ sở hạ tầng AI Stargate trên toàn quốc.

0:00 1/5/26

OpenAI cho biết họ đã đẩy nhanh tiến độ phát triển sáng kiến cơ sở hạ tầng AI "Stargate", vượt qua các mục tiêu triển khai điện toán dài hạn sớm hơn dự kiến do nhu cầu về hệ thống AI

đọc thêm

Sourcenext mở rộng các tính năng tự động hóa đám mây AutoMemo.

0:00 1/5/26

Sourcenext vừa công bố bản cập nhật lớn cho dịch vụ phiên âm AI “AutoMemo”, bổ sung các tính năng tích hợp đám mây tự động

đọc thêm

Chia sẻ bài viết này:

Danh mục

Trình nâng cao hình ảnh AI

Trình tạo mã AI

Quản lý tác vụ AI

Không có mã/mã thấp

Trình tạo thiết kế đồ họa AI

Trình tạo minh họa/nghệ thuật AI

Tất cả công cụ

Tin tức

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI sáng tạo

Hướng dẫn ứng dụng AI cơ bản

Hồ sơ công ty

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng trang web

Công ty điều hành

Hãy theo dõi chúng tôi

Ngôn ngữ

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Hãy theo dõi chúng tôi

Ngôn ngữ

Danh mục

Tất cả công cụ

Quản lý tác vụ AI

Trình tạo thiết kế đồ họa AI

Không có mã/mã thấp

Trình tạo mã AI

Trình nâng cao hình ảnh AI

Trình tạo minh họa/nghệ thuật AI

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI tạo ra

Hướng dẫn ứng dụng AI cơ bản

Tin tức

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng của trang web

Công ty điều hành

Hồ sơ công ty

Tin tức mới nhất

Microsoft chia sẻ các phương pháp đánh giá rủi ro doanh nghiệp.

0:00 1/5/26

Microsoft cho biết Phó Giám đốc An ninh Thông tin (CISO) Rico Mariani đã vạch ra các phương pháp chính để đánh giá rủi ro doanh nghiệp khi hoạt động đe dọa mạng gia tăng cùng

đọc thêm

NVIDIA mở rộng hướng dẫn về kiến trúc nhà máy AI dành cho doanh nghiệp.

0:00 1/5/26

NVIDIA đã trình bày chi tiết Kiến trúc Tham chiếu Doanh nghiệp và cấu hình nhà máy AI được thiết kế để hỗ trợ triển khai hệ thống AI tác nhân và AI tạo sinh trong môi trường tại chỗ.

đọc thêm

OpenAI mở rộng cơ sở hạ tầng AI Stargate trên toàn quốc.

0:00 1/5/26

OpenAI cho biết họ đã đẩy nhanh tiến độ phát triển sáng kiến cơ sở hạ tầng AI "Stargate", vượt qua các mục tiêu triển khai điện toán dài hạn sớm hơn dự kiến do nhu cầu về hệ thống AI

đọc thêm

Sourcenext mở rộng các tính năng tự động hóa đám mây AutoMemo.

0:00 1/5/26

Sourcenext vừa công bố bản cập nhật lớn cho dịch vụ phiên âm AI “AutoMemo”, bổ sung các tính năng tích hợp đám mây tự động

đọc thêm