top of page
Generatif (Beta) |. Memberikan berita dan tren terkini dalam AI generatif
logo.png

Perplexity AI mengadopsi teknologi NVIDIA untuk penskalaan AI

Generatived

6/12/24, 04.30

Perplexity AI, mesin pencari bertenaga AI, memanfaatkan teknologi canggih dari NVIDIA untuk memenuhi permintaan layanan AI yang meningkat pesat. Memproses lebih dari 435 juta kueri per bulan, tim inferensi Perplexity AI menggunakan GPU NVIDIA H100 Tensor Core, NVIDIA Triton Inference Server, dan NVIDIA TensorRT-LLM untuk menciptakan model bahasa skala besar (LLM) yang hemat biaya.

Perplexity AI mengoperasikan lebih dari 20 model AI secara bersamaan, termasuk berbagai variasi model Llama 3.1, untuk mengakomodasi basis penggunanya yang luas. Perusahaan menggunakan model klasifikasi yang lebih kecil untuk mengidentifikasi maksud pengguna dan mengarahkan tugas ke LLM sesuai yang dihosting di pod GPU. Pod ini didukung oleh GPU NVIDIA H100, dikelola oleh instans NVIDIA Triton Inference Server, dan mematuhi perjanjian tingkat layanan (SLA) yang ketat untuk biaya dan pengalaman pengguna.

Infrastruktur Perplexity AI dirancang untuk cluster Kubernetes untuk menghosting pod GPU dan menangani lalu lintas yang berfluktuasi. Penjadwal front-end internal secara cerdas mengarahkan lalu lintas untuk mempertahankan SLA. Server inferensi Triton memainkan peran penting dengan menyajikan model yang dioptimalkan, mengelompokkan permintaan, dan menyediakan metrik pemanfaatan GPU untuk membantu menskalakan sumber daya sesuai dengan permintaan inferensi.

Tim Perplexity Inference berkomitmen untuk memenuhi SLA yang ketat sekaligus mengoptimalkan biaya. Melalui pengujian A/B yang ekstensif, kami menentukan konfigurasi terbaik untuk berbagai kasus penggunaan dan fokus pada memaksimalkan pemanfaatan GPU. Kami melakukan analisis kinerja terperinci terhadap model yang kami hadapi, dengan mempertimbangkan metrik seperti waktu untuk token pertama dan biaya per juta kueri. Kami menerapkan strategi paralelisme model dan penyeimbangan beban untuk meningkatkan kinerja sesuai anggaran GPU.

Perplexity AI mewujudkan penghematan biaya yang signifikan dengan menghosting modelnya di GPU NVIDIA yang dihosting di cloud dibandingkan mengandalkan API LLM pihak ketiga. Misalnya, fitur pertanyaan terkait, yang menyarankan pertanyaan tindak lanjut, diperkirakan dapat menghemat sekitar $1 juta per tahun bagi perusahaan.

Pendekatan Perplexity AI terhadap kinerja mencakup optimalisasi setiap lapisan tumpukan, mulai dari aplikasi hingga akselerator perangkat keras. Perusahaan sedang menjajaki pendekatan layanan terdistribusi menggunakan NVIDIA Triton dan sangat antusias dengan potensi platform NVIDIA Blackwell, yang diharapkan dapat meningkatkan kinerja inferensi untuk LLM triliun parameter hingga 30x. Penggunaan proyek sumber terbuka oleh perusahaan seperti NVIDIA Triton Inference Server dan NVIDIA TensorRT, tersedia sebagai wadah GitHub dan Docker, menggarisbawahi komitmen perusahaan terhadap inovasi dan kinerja dalam layanan AI.

Bagikan artikel ini:

Tin tức mới nhất
Integrasi Knowledge Sense AI dan Salesforce

Integrasi Knowledge Sense AI dan Salesforce

18/2/26, 00.00

KnowledgeSense (Minato Ward, Tokyo) telah meluncurkan fungsi baru untuk agen AI perusahaan mereka, "ChatSense,"

Dasbor Pemanfaatan Data AI Penggabungan Intim

Dasbor Pemanfaatan Data AI Penggabungan Intim

18/2/26, 00.00

Intimate Merger (Minato-ku, Tokyo) telah meluncurkan solusi baru bernama "Data Discovery Dashboard" yang memanfaatkan Generative AI.

Otomatisasi AI Cadence meningkatkan efisiensi desain hingga 10 kali lipat.

Otomatisasi AI Cadence meningkatkan efisiensi desain hingga 10 kali lipat.

18/2/26, 00.00

Cadence (San Jose, California, AS) telah mengumumkan Cadence ChipStack™ AI Super Agent, sebuah pendekatan baru untuk desain semikonduktor.

Proofpoint mengakuisisi Acuvity untuk memperkuat perlindungan terhadap AI.

Proofpoint mengakuisisi Acuvity untuk memperkuat perlindungan terhadap AI.

18/2/26, 00.00

Proofpoint (Sunnyvale, California) mengumumkan akuisisi Acuvity, pelopor dalam keamanan AI perusahaan.

Copyright © 2024 Generatived - All right Reserved.

Bagikan artikel ini:

Bagikan artikel ini:

Generatived

Hãy theo dõi chúng tôi

  • Facebook
  • X

Bahasa

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Generatived AI Logo

Generatived adalah layanan yang memberikan informasi dan tren khusus dalam AI Generatif. Kami akan melakukan yang terbaik untuk menyampaikan informasi tentang dunia yang berubah dengan cepat.

  • Facebook
  • X

Ikuti kami

Bahasa

Berita terkini
Integrasi Knowledge Sense AI dan Salesforce

Integrasi Knowledge Sense AI dan Salesforce

18/2/26, 00.00

KnowledgeSense (Minato Ward, Tokyo) telah meluncurkan fungsi baru untuk agen AI perusahaan mereka, "ChatSense,"

Dasbor Pemanfaatan Data AI Penggabungan Intim

Dasbor Pemanfaatan Data AI Penggabungan Intim

18/2/26, 00.00

Intimate Merger (Minato-ku, Tokyo) telah meluncurkan solusi baru bernama "Data Discovery Dashboard" yang memanfaatkan Generative AI.

Otomatisasi AI Cadence meningkatkan efisiensi desain hingga 10 kali lipat.

Otomatisasi AI Cadence meningkatkan efisiensi desain hingga 10 kali lipat.

18/2/26, 00.00

Cadence (San Jose, California, AS) telah mengumumkan Cadence ChipStack™ AI Super Agent, sebuah pendekatan baru untuk desain semikonduktor.

Proofpoint mengakuisisi Acuvity untuk memperkuat perlindungan terhadap AI.

Proofpoint mengakuisisi Acuvity untuk memperkuat perlindungan terhadap AI.

18/2/26, 00.00

Proofpoint (Sunnyvale, California) mengumumkan akuisisi Acuvity, pelopor dalam keamanan AI perusahaan.

bottom of page