top of page
Generatif (Beta) |. Memberikan berita dan tren terkini dalam AI generatif
logo.png

Perplexity AI mengadopsi teknologi NVIDIA untuk penskalaan AI

Generatived

6/12/24, 04.30

Perplexity AI, mesin pencari bertenaga AI, memanfaatkan teknologi canggih dari NVIDIA untuk memenuhi permintaan layanan AI yang meningkat pesat. Memproses lebih dari 435 juta kueri per bulan, tim inferensi Perplexity AI menggunakan GPU NVIDIA H100 Tensor Core, NVIDIA Triton Inference Server, dan NVIDIA TensorRT-LLM untuk menciptakan model bahasa skala besar (LLM) yang hemat biaya.

Perplexity AI mengoperasikan lebih dari 20 model AI secara bersamaan, termasuk berbagai variasi model Llama 3.1, untuk mengakomodasi basis penggunanya yang luas. Perusahaan menggunakan model klasifikasi yang lebih kecil untuk mengidentifikasi maksud pengguna dan mengarahkan tugas ke LLM sesuai yang dihosting di pod GPU. Pod ini didukung oleh GPU NVIDIA H100, dikelola oleh instans NVIDIA Triton Inference Server, dan mematuhi perjanjian tingkat layanan (SLA) yang ketat untuk biaya dan pengalaman pengguna.

Infrastruktur Perplexity AI dirancang untuk cluster Kubernetes untuk menghosting pod GPU dan menangani lalu lintas yang berfluktuasi. Penjadwal front-end internal secara cerdas mengarahkan lalu lintas untuk mempertahankan SLA. Server inferensi Triton memainkan peran penting dengan menyajikan model yang dioptimalkan, mengelompokkan permintaan, dan menyediakan metrik pemanfaatan GPU untuk membantu menskalakan sumber daya sesuai dengan permintaan inferensi.

Tim Perplexity Inference berkomitmen untuk memenuhi SLA yang ketat sekaligus mengoptimalkan biaya. Melalui pengujian A/B yang ekstensif, kami menentukan konfigurasi terbaik untuk berbagai kasus penggunaan dan fokus pada memaksimalkan pemanfaatan GPU. Kami melakukan analisis kinerja terperinci terhadap model yang kami hadapi, dengan mempertimbangkan metrik seperti waktu untuk token pertama dan biaya per juta kueri. Kami menerapkan strategi paralelisme model dan penyeimbangan beban untuk meningkatkan kinerja sesuai anggaran GPU.

Perplexity AI mewujudkan penghematan biaya yang signifikan dengan menghosting modelnya di GPU NVIDIA yang dihosting di cloud dibandingkan mengandalkan API LLM pihak ketiga. Misalnya, fitur pertanyaan terkait, yang menyarankan pertanyaan tindak lanjut, diperkirakan dapat menghemat sekitar $1 juta per tahun bagi perusahaan.

Pendekatan Perplexity AI terhadap kinerja mencakup optimalisasi setiap lapisan tumpukan, mulai dari aplikasi hingga akselerator perangkat keras. Perusahaan sedang menjajaki pendekatan layanan terdistribusi menggunakan NVIDIA Triton dan sangat antusias dengan potensi platform NVIDIA Blackwell, yang diharapkan dapat meningkatkan kinerja inferensi untuk LLM triliun parameter hingga 30x. Penggunaan proyek sumber terbuka oleh perusahaan seperti NVIDIA Triton Inference Server dan NVIDIA TensorRT, tersedia sebagai wadah GitHub dan Docker, menggarisbawahi komitmen perusahaan terhadap inovasi dan kinerja dalam layanan AI.

Bagikan artikel ini:

Tin tức mới nhất
Layanan otomatisasi email LazyAI diluncurkan.

Layanan otomatisasi email LazyAI diluncurkan.

18/2/26, 00.00

LazyAI (Bunkyo-ku, Tokyo) telah meluncurkan "LazyAI for Mail," sebuah layanan otomatisasi email berbasis AI.

Teknologi HukumMyTokkyo.AiKekayaan Intelektual Inovasi AI

Teknologi HukumMyTokkyo.AiKekayaan Intelektual Inovasi AI

18/2/26, 00.00

MyTokkyo.Ai, yang dikembangkan oleh LegalTech (Minato-ku, Tokyo), adalah platform AI kekayaan intelektual yang membawa perubahan

Survei FORWARD tentang Kemahiran Bahasa Inggris dan Alat Terjemahan AI

Survei FORWARD tentang Kemahiran Bahasa Inggris dan Alat Terjemahan AI

18/2/26, 00.00

FORWARD, yang dioperasikan oleh Language Teaching Revolutions (Shibuya-ku, Tokyo), melakukan survei terhadap para pebisnis berbahasa Inggris mengenai penggunaan

Layanan web baru CLYR "Casually" diluncurkan.

Layanan web baru CLYR "Casually" diluncurkan.

18/2/26, 00.00

CLYR (Meguro-ku, Tokyo) meluncurkan layanan web berbasis AI-nya, "Casually," pada 17 Februari 2026.

Copyright © 2024 Generatived - All right Reserved.

Bagikan artikel ini:

Bagikan artikel ini:

Generatived

Hãy theo dõi chúng tôi

  • Facebook
  • X

Bahasa

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Generatived AI Logo

Generatived adalah layanan yang memberikan informasi dan tren khusus dalam AI Generatif. Kami akan melakukan yang terbaik untuk menyampaikan informasi tentang dunia yang berubah dengan cepat.

  • Facebook
  • X

Ikuti kami

Bahasa

Berita terkini
Layanan otomatisasi email LazyAI diluncurkan.

Layanan otomatisasi email LazyAI diluncurkan.

18/2/26, 00.00

LazyAI (Bunkyo-ku, Tokyo) telah meluncurkan "LazyAI for Mail," sebuah layanan otomatisasi email berbasis AI.

Teknologi HukumMyTokkyo.AiKekayaan Intelektual Inovasi AI

Teknologi HukumMyTokkyo.AiKekayaan Intelektual Inovasi AI

18/2/26, 00.00

MyTokkyo.Ai, yang dikembangkan oleh LegalTech (Minato-ku, Tokyo), adalah platform AI kekayaan intelektual yang membawa perubahan

Survei FORWARD tentang Kemahiran Bahasa Inggris dan Alat Terjemahan AI

Survei FORWARD tentang Kemahiran Bahasa Inggris dan Alat Terjemahan AI

18/2/26, 00.00

FORWARD, yang dioperasikan oleh Language Teaching Revolutions (Shibuya-ku, Tokyo), melakukan survei terhadap para pebisnis berbahasa Inggris mengenai penggunaan

Layanan web baru CLYR "Casually" diluncurkan.

Layanan web baru CLYR "Casually" diluncurkan.

18/2/26, 00.00

CLYR (Meguro-ku, Tokyo) meluncurkan layanan web berbasis AI-nya, "Casually," pada 17 Februari 2026.

bottom of page