NVIDIA TensorRT-LLM Mengumumkan Paralelisme Pakar yang Luas 9/3935

Generatif (Beta) |. Memberikan berita dan tren terkini dalam AI generatif

NVIDIA TensorRT-LLM Mengumumkan Paralelisme Pakar yang Luas

Generatived

22/10/25, 00.00

Industri AI dengan cepat mengimplementasikan paralelisme model, yang mendistribusikan tugas komputasi ke beberapa GPU. Teknik ini khususnya penting dengan diperkenalkannya arsitektur Mixture-of-Experts (MoE), yang lebih efisien daripada model padat tradisional yang hanya mengaktifkan sebagian parameter untuk setiap token. Namun, penskalaan MoE menimbulkan tantangan baru dalam paralelisasi, komunikasi, dan penjadwalan, yang membutuhkan optimasi yang cermat.

Untuk mengatasi tantangan ini, konsep Paralelisme Pakar (EP) diperkenalkan. EP meningkatkan kinerja dan skalabilitas dengan mendistribusikan unit pemrosesan khusus yang disebut "pakar" secara strategis ke beberapa GPU. Pendekatan ini penting untuk mengelola model kompleks seperti DeepSeek-R1, yang memiliki 256 pakar dan 671 miliar parameter. Tensor RT-LLM NVIDIA memperkenalkan Wide Expert Parallelism (Wide-EP), yang membuat penerapan model skala besar tersebut lebih efisien, menghasilkan peningkatan kinerja dan total biaya kepemilikan yang lebih rendah.

Implementasi EP skala besar memiliki tantangan, terutama dalam hal kebutuhan memori dan komputasi. Model MoE dapat mengurangi kebutuhan komputasi per token dengan hanya mengaktifkan sejumlah kecil pakar selama inferensi. Namun, pemuatan bobot secara dinamis untuk setiap pakar yang diaktifkan dapat menimbulkan kemacetan, terutama dalam skenario throughput tinggi. EP skala besar mengatasi beberapa masalah ini dengan mendistribusikan pakar di lebih banyak GPU, mengurangi beban beban bobot, dan meningkatkan keseimbangan komputasi dan memori dalam sistem.

Desain dan arsitektur sistem juga penting untuk penskalaan EP. Pergerakan dan komunikasi memori yang efisien bergantung pada bandwidth dan topologi interkoneksi. Perangkat lunak dan kernel yang dioptimalkan diperlukan untuk mengelola lalu lintas antar pakar dan memastikan komunikasi dan penyeimbangan beban yang efisien. NVLink NVIDIA memainkan peran kunci dalam mengurangi overhead komunikasi dengan menyediakan bandwidth yang diperlukan untuk mendukung pertukaran informasi antar pakar yang terdistribusi selama proses inferensi.

Singkatnya, Wide-EP, bagian dari TensorRT-LLM NVIDIA, menyediakan solusi efektif untuk penskalaan model MoE yang besar. Dengan mendistribusikan pakar ke lebih banyak GPU, Wide-EP mengurangi beban, meningkatkan efisiensi GroupGEMM, dan mengelola overhead komunikasi secara efektif dengan memanfaatkan domain NVLink bandwidth tinggi. Pendekatan ini tidak hanya meningkatkan throughput per GPU, tetapi juga berdampak signifikan terhadap aspek ekonomi penerapan sistem, memungkinkan konkurensi yang lebih besar dan efisiensi GPU yang lebih baik, yang pada akhirnya mengurangi biaya layanan untuk model besar.

Sumber: Blog Pengembang NVIDIA

Bagikan artikel ini:

Tin tức mới nhất

Tim Eksplorasi AI Kantor Pusat Penjualan Mizukan Diluncurkan

1/12/25, 00.00

Mizkan (Kota Handa, Prefektur Aichi) akan meluncurkan "Tim Eksplorasi AI yang Menarik" di kantor pusat penjualannya pada bulan September 2025.

Baca lebih lanjut

ShiftPlus menambahkan fitur AI baru ke pemerintahan daerah

1/12/25, 00.00

ShiftPlus (Nishi-ku, Osaka) telah menambahkan fitur baru, "Gemini 3 Pro Image Preview," ke "Municipal AI zevo," sebuah sistem untuk pemerintah daerah yang dikembangkan bekerja sama dengan Kota Miyakonojo.

Baca lebih lanjut

Pengembangan layanan dukungan LLMO di era AI sederhana

1/12/25, 00.00

Simplec (Shibuya-ku, Tokyo) akan memulai penerapan skala penuh "Layanan Dukungan Penanggulangan LLMO" untuk memenuhi kebutuhan era Generative AI.

Baca lebih lanjut

Wedding Park meluncurkan pencocokan anggaran AI baru

1/12/25, 00.00

Wedding Park (Minato-ku, Tokyo) telah meluncurkan fitur berbasis AI baru yang disebut "Budget Match" di situs informasi ulasan persiapan pernikahannya, "Wedding Park."

Baca lebih lanjut

Bagikan artikel ini:

Kategori

Peningkat Gambar AI

Pembuat kode AI

Manajemen tugas AI

Tanpa kode/kode rendah

Generator desain grafis AI

Generator seni/ilustrasi AI

Semua alat

Berita

AI dan hukum/peraturan/masyarakat

Perusahaan/produk/teknologi AI

AI Teknologi Besar

OpenAI/ChatGPT

AI generasi kreatif

AI generasi berbasis teks

AI generatif Jepang

Dasar-dasar AI generatif

Panduan penerapan AI terbaik

Profil perusahaan

Tentang kami

Chính sách quyền riêng tư

Điều khoản sử dụng trang web

Công ty điều hành

Hãy theo dõi chúng tôi

Bahasa

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Generatived adalah layanan yang memberikan informasi dan tren khusus dalam AI Generatif. Kami akan melakukan yang terbaik untuk menyampaikan informasi tentang dunia yang berubah dengan cepat.

Ikuti kami

Bahasa

Kategori

Semua alat

Manajemen tugas AI

Generator desain grafis AI

Tanpa kode/kode rendah

Pembuat kode AI

Peningkat Gambar AI

Pembuat Seni/Ilustrasi AI

AI dan hukum/sistem/ekonomi/masyarakat

Perusahaan/produk/teknologi AI

AI berteknologi besar

OpenAI/ChatGPT

AI generasi inovatif

AI generasi berbasis teks

AI inovatif Jepang

Dasar-dasar AI generatif

Petunjuk dasar aplikasi AI

Tin tức

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng của trang web

Công ty điều hành

Hồ sơ công ty

Berita terkini

Tim Eksplorasi AI Kantor Pusat Penjualan Mizukan Diluncurkan

1/12/25, 00.00

Mizkan (Kota Handa, Prefektur Aichi) akan meluncurkan "Tim Eksplorasi AI yang Menarik" di kantor pusat penjualannya pada bulan September 2025.

Baca lebih lanjut

ShiftPlus menambahkan fitur AI baru ke pemerintahan daerah

1/12/25, 00.00

ShiftPlus (Nishi-ku, Osaka) telah menambahkan fitur baru, "Gemini 3 Pro Image Preview," ke "Municipal AI zevo," sebuah sistem untuk pemerintah daerah yang dikembangkan bekerja sama dengan Kota Miyakonojo.

Baca lebih lanjut

Pengembangan layanan dukungan LLMO di era AI sederhana

1/12/25, 00.00

Simplec (Shibuya-ku, Tokyo) akan memulai penerapan skala penuh "Layanan Dukungan Penanggulangan LLMO" untuk memenuhi kebutuhan era Generative AI.

Baca lebih lanjut

Wedding Park meluncurkan pencocokan anggaran AI baru

1/12/25, 00.00

Wedding Park (Minato-ku, Tokyo) telah meluncurkan fitur berbasis AI baru yang disebut "Budget Match" di situs informasi ulasan persiapan pernikahannya, "Wedding Park."

Baca lebih lanjut