NVIDIA TensorRT Mendukung AI dengan Pengoptimal Model 9/3869

Generatif (Beta) |. Memberikan berita dan tren terkini dalam AI generatif

NVIDIA TensorRT Mendukung AI dengan Pengoptimal Model

Generatived

5/8/25, 00.00

Kuantisasi telah menjadi teknik penting bagi pengembang untuk meningkatkan kinerja inferensi model AI. Mengurangi presisi model dapat meningkatkan latency, throughput, dan efisiensi memori tanpa memerlukan pelatihan ulang. Saat ini, model umumnya dilatih dalam FP16 atau BF16, dengan beberapa model lanjutan menggunakan FP8. Memperluas kuantisasi ke format seperti FP4 menjanjikan peningkatan efisiensi yang lebih besar.

Kerangka kerja kuantisasi pasca-pelatihan (PTQ) TensorRT Model Optimizer NVIDIA menyediakan solusi fleksibel dan modular untuk menerapkan optimasi ini. Kerangka kerja ini mendukung berbagai format, termasuk NVFP4, yang dikustomisasi untuk GPU NVIDIA Blackwell. Kerangka kerja ini menggabungkan teknik kalibrasi, seperti SmoothQuant, kuantisasi bobot berbasis aktivasi (AWQ), dan AutoQuantize, untuk meningkatkan hasil kuantisasi. Selain itu, PTQ Model Optimizer dirancang dengan mempertimbangkan kompatibilitas ekosistem, mendukung checkpoint PyTorch, Hugging Face, NeMo, dan Megatron-LM asli, serta mudah diintegrasikan dengan kerangka kerja inferensi seperti NVIDIA TensorRT-LLM, vLLM, dan SGLang.

Artikel ini memberikan detail lebih lanjut tentang teknologi PTQ dan menjelaskan bagaimana Model Optimizer PTQ dapat digunakan untuk mengompresi model AI dengan tetap mempertahankan akurasi tinggi. Hal ini tidak hanya meningkatkan pengalaman pengguna tetapi juga meningkatkan kinerja aplikasi AI. Jaringan saraf tiruan terdiri dari lapisan-lapisan dengan nilai-nilai yang telah disetel dengan baik melalui proses pra dan pasca pelatihan. Nilai-nilai ini, yang disimpan sebagai bobot, aktivasi, dan bias, awalnya dilatih dengan presisi penuh, dan kemudian dikuantisasi ke format presisi yang lebih rendah, seperti 8-bit atau 4-bit, memungkinkan nilai-nilai tersebut dikompresi ke dalam rentang representasi yang lebih kecil.

Proses kuantisasi menyesuaikan nilai agar sesuai dengan rentang tipe data target, yang dapat memengaruhi granularitas nilai. Misalnya, kuantisasi dari FP16 ke FP8 mengurangi detail dan resolusi nilai. Pustaka Model Optimizer PTQ menyediakan teknik optimasi tingkat lanjut untuk meningkatkan kinerja inferensi model dan dapat diimplementasikan dalam berbagai kerangka kerja inferensi.

Pengoptimal Model mendukung berbagai format kuantisasi dan menawarkan beberapa metode kalibrasi untuk membantu Anda memilih format dan kalibrasi yang tepat untuk model dan beban kerja spesifik Anda. Metode-metode ini meliputi Kalibrasi Min-Maks, SmoothQuant, AWQ, dan AutoQuantize. Setiap metode memiliki keunggulannya sendiri dan memengaruhi akurasi akhir model terkuantisasi Anda, jadi Anda harus mempertimbangkannya dengan mempertimbangkan persyaratan sensitivitas dan latency beban kerja Anda.

Singkatnya, kuantisasi merupakan teknik ampuh untuk meningkatkan inferensi model, didukung oleh ekosistem teknologi sumber terbuka yang terus berkembang. Kerangka kerja TensorRT Model Optimizer PTQ dari NVIDIA menyediakan perangkat komprehensif bagi pengembang untuk kompresi model yang menjaga akurasi dan meningkatkan penerapan AI. Pengembang dapat merasakan manfaat ini secara langsung dengan mengikuti tutorial Jupyter Notebook dan bereksperimen dengan titik pemeriksaan pra-kuantisasi.

Sumber: Blog Pengembang NVIDIA

Bagikan artikel ini:

Tin tức mới nhất

Shoeisha Security Online Day diselenggarakan.

16/2/26, 00.00

EnterpriseZine, yang dioperasikan oleh Shoeisha (Shinjuku-ku, Tokyo), akan menyelenggarakan Security Online Day 2025 Spring secara daring pada tanggal 17 Maret 2026.

Baca lebih lanjut

Layanan optimasi web SSS AI diluncurkan.

16/2/26, 00.00

Sun Strategic Solutions (Minato-ku, Tokyo) telah mengumumkan bahwa mereka akan mulai menawarkan "Layanan AIO."

Baca lebih lanjut

Kompetisi AI Prompt Treasure Foot Saga

16/2/26, 00.00

Treasure Foot (Kamakura, Prefektur Kanagawa) dan Togabai AI Consulting akan menyelenggarakan "Kontes Prompt AI"

Baca lebih lanjut

Memperluas platform AI khusus industri data AI

16/2/26, 00.00

AI Data (Minato-ku, Tokyo) telah mengumumkan perluasan platform AI khusus bisnisnya. Perusahaan akan memperkuat "AI Factory" yang menyediakan dukungan lintas industri

Baca lebih lanjut

Bagikan artikel ini:

Kategori

Peningkat Gambar AI

Pembuat kode AI

Manajemen tugas AI

Tanpa kode/kode rendah

Generator desain grafis AI

Generator seni/ilustrasi AI

Semua alat

Berita

AI dan hukum/peraturan/masyarakat

Perusahaan/produk/teknologi AI

AI Teknologi Besar

OpenAI/ChatGPT

AI generasi kreatif

AI generasi berbasis teks

AI generatif Jepang

Dasar-dasar AI generatif

Panduan penerapan AI terbaik

Profil perusahaan

Tentang kami

Chính sách quyền riêng tư

Điều khoản sử dụng trang web

Công ty điều hành

Hãy theo dõi chúng tôi

Bahasa

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Generatived adalah layanan yang memberikan informasi dan tren khusus dalam AI Generatif. Kami akan melakukan yang terbaik untuk menyampaikan informasi tentang dunia yang berubah dengan cepat.

Ikuti kami

Bahasa

Kategori

Semua alat

Manajemen tugas AI

Generator desain grafis AI

Tanpa kode/kode rendah

Pembuat kode AI

Peningkat Gambar AI

Pembuat Seni/Ilustrasi AI

AI dan hukum/sistem/ekonomi/masyarakat

Perusahaan/produk/teknologi AI

AI berteknologi besar

OpenAI/ChatGPT

AI generasi inovatif

AI generasi berbasis teks

AI inovatif Jepang

Dasar-dasar AI generatif

Petunjuk dasar aplikasi AI

Tin tức

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng của trang web

Công ty điều hành

Hồ sơ công ty

Berita terkini

Shoeisha Security Online Day diselenggarakan.

16/2/26, 00.00

EnterpriseZine, yang dioperasikan oleh Shoeisha (Shinjuku-ku, Tokyo), akan menyelenggarakan Security Online Day 2025 Spring secara daring pada tanggal 17 Maret 2026.

Baca lebih lanjut

Layanan optimasi web SSS AI diluncurkan.

16/2/26, 00.00

Sun Strategic Solutions (Minato-ku, Tokyo) telah mengumumkan bahwa mereka akan mulai menawarkan "Layanan AIO."

Baca lebih lanjut

Kompetisi AI Prompt Treasure Foot Saga

16/2/26, 00.00

Treasure Foot (Kamakura, Prefektur Kanagawa) dan Togabai AI Consulting akan menyelenggarakan "Kontes Prompt AI"

Baca lebih lanjut

Memperluas platform AI khusus industri data AI

16/2/26, 00.00

AI Data (Minato-ku, Tokyo) telah mengumumkan perluasan platform AI khusus bisnisnya. Perusahaan akan memperkuat "AI Factory" yang menyediakan dukungan lintas industri

Baca lebih lanjut