Generatif (Beta) |. Memberikan berita dan tren terkini dalam AI generatif

Perplexity AI mengadopsi teknologi NVIDIA untuk penskalaan AI
Generatived
6/12/24, 04.30
Perplexity AI, mesin pencari bertenaga AI, memanfaatkan teknologi canggih dari NVIDIA untuk memenuhi permintaan layanan AI yang meningkat pesat. Memproses lebih dari 435 juta kueri per bulan, tim inferensi Perplexity AI menggunakan GPU NVIDIA H100 Tensor Core, NVIDIA Triton Inference Server, dan NVIDIA TensorRT-LLM untuk menciptakan model bahasa skala besar (LLM) yang hemat biaya.
Perplexity AI mengoperasikan lebih dari 20 model AI secara bersamaan, termasuk berbagai variasi model Llama 3.1, untuk mengakomodasi basis penggunanya yang luas. Perusahaan menggunakan model klasifikasi yang lebih kecil untuk mengidentifikasi maksud pengguna dan mengarahkan tugas ke LLM sesuai yang dihosting di pod GPU. Pod ini didukung oleh GPU NVIDIA H100, dikelola oleh instans NVIDIA Triton Inference Server, dan mematuhi perjanjian tingkat layanan (SLA) yang ketat untuk biaya dan pengalaman pengguna.
Infrastruktur Perplexity AI dirancang untuk cluster Kubernetes untuk menghosting pod GPU dan menangani lalu lintas yang berfluktuasi. Penjadwal front-end internal secara cerdas mengarahkan lalu lintas untuk mempertahankan SLA. Server inferensi Triton memainkan peran penting dengan menyajikan model yang dioptimalkan, mengelompokkan permintaan, dan menyediakan metrik pemanfaatan GPU untuk membantu menskalakan sumber daya sesuai dengan permintaan inferensi.
Tim Perplexity Inference berkomitmen untuk memenuhi SLA yang ketat sekaligus mengoptimalkan biaya. Melalui pengujian A/B yang ekstensif, kami menentukan konfigurasi terbaik untuk berbagai kasus penggunaan dan fokus pada memaksimalkan pemanfaatan GPU. Kami melakukan analisis kinerja terperinci terhadap model yang kami hadapi, dengan mempertimbangkan metrik seperti waktu untuk token pertama dan biaya per juta kueri. Kami menerapkan strategi paralelisme model dan penyeimbangan beban untuk meningkatkan kinerja sesuai anggaran GPU.
Perplexity AI mewujudkan penghematan biaya yang signifikan dengan menghosting modelnya di GPU NVIDIA yang dihosting di cloud dibandingkan mengandalkan API LLM pihak ketiga. Misalnya, fitur pertanyaan terkait, yang menyarankan pertanyaan tindak lanjut, diperkirakan dapat menghemat sekitar $1 juta per tahun bagi perusahaan.
Pendekatan Perplexity AI terhadap kinerja mencakup optimalisasi setiap lapisan tumpukan, mulai dari aplikasi hingga akselerator perangkat keras. Perusahaan sedang menjajaki pendekatan layanan terdistribusi menggunakan NVIDIA Triton dan sangat antusias dengan potensi platform NVIDIA Blackwell, yang diharapkan dapat meningkatkan kinerja inferensi untuk LLM triliun parameter hingga 30x. Penggunaan proyek sumber terbuka oleh perusahaan seperti NVIDIA Triton Inference Server dan NVIDIA TensorRT, tersedia sebagai wadah GitHub dan Docker, menggarisbawahi komitmen perusahaan terhadap inovasi dan kinerja dalam layanan AI.
Bagikan artikel ini:
Tin tức mới nhất
Perangkat promosi penjualan AI generasi berikutnya, TOUCH TO GO, diluncurkan.
18/2/26, 00.00
TOUCH TO GO (Minato-ku, Tokyo) akan merilis "TTG-HELLO," perangkat promosi penjualan bertenaga AI generasi berikutnya, pada 20 Maret 2026.
Dukungan untuk pembangunan infrastruktur pemanfaatan AI Magic Semi yang aman.
18/2/26, 00.00
Magic Semi (Tokyo) menunjukkan bahwa seiring dengan meluasnya penggunaan Generative AI dalam bisnis, penanganan data bisnis yang masih berada di terminal PC menjadi
Robotika Perdagangan AI Bantuan Tenaga Kerja diluncurkan
18/2/26, 00.00
Commerce Robotics (Minato-ku, Tokyo) meluncurkan "AI Labor-kun," asisten tenaga kerja berbasis AI untuk personel tenaga kerja perusahaan, pada tanggal 16 Februari 2026.
Copyright © 2024 Generatived - All right Reserved.
Bagikan artikel ini:
Bagikan artikel ini:
Kategori
Berita
AI dan hukum/peraturan/masyarakat
Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.
Berita terkini
Perangkat promosi penjualan AI generasi berikutnya, TOUCH TO GO, diluncurkan.
18/2/26, 00.00
TOUCH TO GO (Minato-ku, Tokyo) akan merilis "TTG-HELLO," perangkat promosi penjualan bertenaga AI generasi berikutnya, pada 20 Maret 2026.
Dukungan untuk pembangunan infrastruktur pemanfaatan AI Magic Semi yang aman.
18/2/26, 00.00
Magic Semi (Tokyo) menunjukkan bahwa seiring dengan meluasnya penggunaan Generative AI dalam bisnis, penanganan data bisnis yang masih berada di terminal PC menjadi
Robotika Perdagangan AI Bantuan Tenaga Kerja diluncurkan
18/2/26, 00.00
Commerce Robotics (Minato-ku, Tokyo) meluncurkan "AI Labor-kun," asisten tenaga kerja berbasis AI untuk personel tenaga kerja perusahaan, pada tanggal 16 Februari 2026.



%20(1).webp)


