Perplexity AI mengadopsi teknologi NVIDIA untuk penskalaan AI 4/3934

Generatif (Beta) |. Memberikan berita dan tren terkini dalam AI generatif

Perplexity AI mengadopsi teknologi NVIDIA untuk penskalaan AI

Generatived

6/12/24, 04.30

Perplexity AI, mesin pencari bertenaga AI, memanfaatkan teknologi canggih dari NVIDIA untuk memenuhi permintaan layanan AI yang meningkat pesat. Memproses lebih dari 435 juta kueri per bulan, tim inferensi Perplexity AI menggunakan GPU NVIDIA H100 Tensor Core, NVIDIA Triton Inference Server, dan NVIDIA TensorRT-LLM untuk menciptakan model bahasa skala besar (LLM) yang hemat biaya.

Perplexity AI mengoperasikan lebih dari 20 model AI secara bersamaan, termasuk berbagai variasi model Llama 3.1, untuk mengakomodasi basis penggunanya yang luas. Perusahaan menggunakan model klasifikasi yang lebih kecil untuk mengidentifikasi maksud pengguna dan mengarahkan tugas ke LLM sesuai yang dihosting di pod GPU. Pod ini didukung oleh GPU NVIDIA H100, dikelola oleh instans NVIDIA Triton Inference Server, dan mematuhi perjanjian tingkat layanan (SLA) yang ketat untuk biaya dan pengalaman pengguna.

Infrastruktur Perplexity AI dirancang untuk cluster Kubernetes untuk menghosting pod GPU dan menangani lalu lintas yang berfluktuasi. Penjadwal front-end internal secara cerdas mengarahkan lalu lintas untuk mempertahankan SLA. Server inferensi Triton memainkan peran penting dengan menyajikan model yang dioptimalkan, mengelompokkan permintaan, dan menyediakan metrik pemanfaatan GPU untuk membantu menskalakan sumber daya sesuai dengan permintaan inferensi.

Tim Perplexity Inference berkomitmen untuk memenuhi SLA yang ketat sekaligus mengoptimalkan biaya. Melalui pengujian A/B yang ekstensif, kami menentukan konfigurasi terbaik untuk berbagai kasus penggunaan dan fokus pada memaksimalkan pemanfaatan GPU. Kami melakukan analisis kinerja terperinci terhadap model yang kami hadapi, dengan mempertimbangkan metrik seperti waktu untuk token pertama dan biaya per juta kueri. Kami menerapkan strategi paralelisme model dan penyeimbangan beban untuk meningkatkan kinerja sesuai anggaran GPU.

Perplexity AI mewujudkan penghematan biaya yang signifikan dengan menghosting modelnya di GPU NVIDIA yang dihosting di cloud dibandingkan mengandalkan API LLM pihak ketiga. Misalnya, fitur pertanyaan terkait, yang menyarankan pertanyaan tindak lanjut, diperkirakan dapat menghemat sekitar $1 juta per tahun bagi perusahaan.

Pendekatan Perplexity AI terhadap kinerja mencakup optimalisasi setiap lapisan tumpukan, mulai dari aplikasi hingga akselerator perangkat keras. Perusahaan sedang menjajaki pendekatan layanan terdistribusi menggunakan NVIDIA Triton dan sangat antusias dengan potensi platform NVIDIA Blackwell, yang diharapkan dapat meningkatkan kinerja inferensi untuk LLM triliun parameter hingga 30x. Penggunaan proyek sumber terbuka oleh perusahaan seperti NVIDIA Triton Inference Server dan NVIDIA TensorRT, tersedia sebagai wadah GitHub dan Docker, menggarisbawahi komitmen perusahaan terhadap inovasi dan kinerja dalam layanan AI.

Sumber: Blog Pengembang NVIDIA

Bagikan artikel ini:

Tin tức mới nhất

GenAi Meluncurkan Layanan Platform Pencocokan Freelance Berbasis AI

30/4/26, 00.00

GenAi mengumumkan peluncuran “Experts Ease,” sebuah platform bermerek yang menghubungkan konsultan lepas dengan proyek AI dan TI

Baca lebih lanjut

MONO BRAIN Memperluas Keamanan dan Pengembangan AI

30/4/26, 00.00

MONO BRAIN mengumumkan perluasan platform keamanan AI-nya dan peluncuran bisnis pengembangan AI berbasis kolaborasi

Baca lebih lanjut

KMS Mengintegrasikan Claude Opus 4.7 ke dalam AI

29/4/26, 00.00

KMS mengumumkan integrasi “Claude Opus 4.7” ke dalam solusi AI-nya yang dibangun di atas Azure AI Foundry

Baca lebih lanjut

Aun Consulting Partners Pemasaran Global untuk Ekspansi

29/4/26, 00.00

Aun Consulting mengumumkan kemitraan bisnis dengan Glocal Marketing untuk memperkuat dukungan pemasaran regional dan global bagi klien korporat.

Baca lebih lanjut

Bagikan artikel ini:

Kategori

Peningkat Gambar AI

Pembuat kode AI

Manajemen tugas AI

Tanpa kode/kode rendah

Generator desain grafis AI

Generator seni/ilustrasi AI

Semua alat

Berita

AI dan hukum/peraturan/masyarakat

Perusahaan/produk/teknologi AI

AI Teknologi Besar

OpenAI/ChatGPT

AI generasi kreatif

AI generasi berbasis teks

AI generatif Jepang

Dasar-dasar AI generatif

Panduan penerapan AI terbaik

Profil perusahaan

Tentang kami

Chính sách quyền riêng tư

Điều khoản sử dụng trang web

Công ty điều hành

Hãy theo dõi chúng tôi

Bahasa

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Generatived adalah layanan yang memberikan informasi dan tren khusus dalam AI Generatif. Kami akan melakukan yang terbaik untuk menyampaikan informasi tentang dunia yang berubah dengan cepat.

Ikuti kami

Bahasa

Kategori

Semua alat

Manajemen tugas AI

Generator desain grafis AI

Tanpa kode/kode rendah

Pembuat kode AI

Peningkat Gambar AI

Pembuat Seni/Ilustrasi AI

AI dan hukum/sistem/ekonomi/masyarakat

Perusahaan/produk/teknologi AI