Generatif (Beta) |. Memberikan berita dan tren terkini dalam AI generatif
Perplexity AI mengadopsi teknologi NVIDIA untuk penskalaan AI
Generatived
24/12/6 4:30
Perplexity AI, mesin pencari bertenaga AI, memanfaatkan teknologi canggih dari NVIDIA untuk memenuhi permintaan layanan AI yang meningkat pesat. Memproses lebih dari 435 juta kueri per bulan, tim inferensi Perplexity AI menggunakan GPU NVIDIA H100 Tensor Core, NVIDIA Triton Inference Server, dan NVIDIA TensorRT-LLM untuk menciptakan model bahasa skala besar (LLM) yang hemat biaya.
Perplexity AI mengoperasikan lebih dari 20 model AI secara bersamaan, termasuk berbagai variasi model Llama 3.1, untuk mengakomodasi basis penggunanya yang luas. Perusahaan menggunakan model klasifikasi yang lebih kecil untuk mengidentifikasi maksud pengguna dan mengarahkan tugas ke LLM sesuai yang dihosting di pod GPU. Pod ini didukung oleh GPU NVIDIA H100, dikelola oleh instans NVIDIA Triton Inference Server, dan mematuhi perjanjian tingkat layanan (SLA) yang ketat untuk biaya dan pengalaman pengguna.
Infrastruktur Perplexity AI dirancang untuk cluster Kubernetes untuk menghosting pod GPU dan menangani lalu lintas yang berfluktuasi. Penjadwal front-end internal secara cerdas mengarahkan lalu lintas untuk mempertahankan SLA. Server inferensi Triton memainkan peran penting dengan menyajikan model yang dioptimalkan, mengelompokkan permintaan, dan menyediakan metrik pemanfaatan GPU untuk membantu menskalakan sumber daya sesuai dengan permintaan inferensi.
Tim Perplexity Inference berkomitmen untuk memenuhi SLA yang ketat sekaligus mengoptimalkan biaya. Melalui pengujian A/B yang ekstensif, kami menentukan konfigurasi terbaik untuk berbagai kasus penggunaan dan fokus pada memaksimalkan pemanfaatan GPU. Kami melakukan analisis kinerja terperinci terhadap model yang kami hadapi, dengan mempertimbangkan metrik seperti waktu untuk token pertama dan biaya per juta kueri. Kami menerapkan strategi paralelisme model dan penyeimbangan beban untuk meningkatkan kinerja sesuai anggaran GPU.
Perplexity AI mewujudkan penghematan biaya yang signifikan dengan menghosting modelnya di GPU NVIDIA yang dihosting di cloud dibandingkan mengandalkan API LLM pihak ketiga. Misalnya, fitur pertanyaan terkait, yang menyarankan pertanyaan tindak lanjut, diperkirakan dapat menghemat sekitar $1 juta per tahun bagi perusahaan.
Pendekatan Perplexity AI terhadap kinerja mencakup optimalisasi setiap lapisan tumpukan, mulai dari aplikasi hingga akselerator perangkat keras. Perusahaan sedang menjajaki pendekatan layanan terdistribusi menggunakan NVIDIA Triton dan sangat antusias dengan potensi platform NVIDIA Blackwell, yang diharapkan dapat meningkatkan kinerja inferensi untuk LLM triliun parameter hingga 30x. Penggunaan proyek sumber terbuka oleh perusahaan seperti NVIDIA Triton Inference Server dan NVIDIA TensorRT, tersedia sebagai wadah GitHub dan Docker, menggarisbawahi komitmen perusahaan terhadap inovasi dan kinerja dalam layanan AI.
Bagikan artikel ini:
Berita terkini
Verifikasi autentikasi sidik jari wajah AI Citadel ditambahkan
25/1/20 4:30
Citadel AI (Shibuya-ku, Tokyo) telah menambahkan fungsionalitas verifikasi sistem biometrik ke "Citadel Lens."
Kampanye Konsultasi Gratis Cloud Pelanggan
25/1/20 4:30
Customer Cloud (Shinjuku-ku, Tokyo) telah mengumumkan akan menjalankan kampanye yang menawarkan layanan konsultasi gratis untuk memperingati penerbitan buku pertama karya Reiwa no Tora, presiden dan CEO perusahaan yang menguntungkan, Sho Ichinosawa.
Microsoft Jepang akan menyediakan keterampilan AI secara gratis
25/1/20 4:30
Microsoft Jepang (Minato-ku, Tokyo) telah merilis versi Jepang dari "AI SKILLS NAVIGATOR."
Copyright © 2024 Generatived - All right Reserved.
Bagikan artikel ini:
Bagikan artikel ini:
Kategori
Berita
AI dan hukum/peraturan/masyarakat
Generatived adalah layanan yang memberikan informasi dan tren khusus dalam AI Generatif. Kami akan melakukan yang terbaik untuk menyampaikan informasi tentang dunia yang berubah dengan cepat.
Profil perusahaan
Berita terkini
Verifikasi autentikasi sidik jari wajah AI Citadel ditambahkan
25/1/20 4:30
Citadel AI (Shibuya-ku, Tokyo) telah menambahkan fungsionalitas verifikasi sistem biometrik ke "Citadel Lens."
Kampanye Konsultasi Gratis Cloud Pelanggan
25/1/20 4:30
Customer Cloud (Shinjuku-ku, Tokyo) telah mengumumkan akan menjalankan kampanye yang menawarkan layanan konsultasi gratis untuk memperingati penerbitan buku pertama karya Reiwa no Tora, presiden dan CEO perusahaan yang menguntungkan, Sho Ichinosawa.
Microsoft Jepang akan menyediakan keterampilan AI secara gratis
25/1/20 4:30
Microsoft Jepang (Minato-ku, Tokyo) telah merilis versi Jepang dari "AI SKILLS NAVIGATOR."