Generatif (Beta) |. Memberikan berita dan tren terkini dalam AI generatif
%20(1).webp)
NVIDIA TensorRT Mendukung AI dengan Pengoptimal Model
Generatived
5/8/25, 00.00
Kuantisasi telah menjadi teknik penting bagi pengembang untuk meningkatkan kinerja inferensi model AI. Mengurangi presisi model dapat meningkatkan latency, throughput, dan efisiensi memori tanpa memerlukan pelatihan ulang. Saat ini, model umumnya dilatih dalam FP16 atau BF16, dengan beberapa model lanjutan menggunakan FP8. Memperluas kuantisasi ke format seperti FP4 menjanjikan peningkatan efisiensi yang lebih besar.
Kerangka kerja kuantisasi pasca-pelatihan (PTQ) TensorRT Model Optimizer NVIDIA menyediakan solusi fleksibel dan modular untuk menerapkan optimasi ini. Kerangka kerja ini mendukung berbagai format, termasuk NVFP4, yang dikustomisasi untuk GPU NVIDIA Blackwell. Kerangka kerja ini menggabungkan teknik kalibrasi, seperti SmoothQuant, kuantisasi bobot berbasis aktivasi (AWQ), dan AutoQuantize, untuk meningkatkan hasil kuantisasi. Selain itu, PTQ Model Optimizer dirancang dengan mempertimbangkan kompatibilitas ekosistem, mendukung checkpoint PyTorch, Hugging Face, NeMo, dan Megatron-LM asli, serta mudah diintegrasikan dengan kerangka kerja inferensi seperti NVIDIA TensorRT-LLM, vLLM, dan SGLang.
Artikel ini memberikan detail lebih lanjut tentang teknologi PTQ dan menjelaskan bagaimana Model Optimizer PTQ dapat digunakan untuk mengompresi model AI dengan tetap mempertahankan akurasi tinggi. Hal ini tidak hanya meningkatkan pengalaman pengguna tetapi juga meningkatkan kinerja aplikasi AI. Jaringan saraf tiruan terdiri dari lapisan-lapisan dengan nilai-nilai yang telah disetel dengan baik melalui proses pra dan pasca pelatihan. Nilai-nilai ini, yang disimpan sebagai bobot, aktivasi, dan bias, awalnya dilatih dengan presisi penuh, dan kemudian dikuantisasi ke format presisi yang lebih rendah, seperti 8-bit atau 4-bit, memungkinkan nilai-nilai tersebut dikompresi ke dalam rentang representasi yang lebih kecil.
Proses kuantisasi menyesuaikan nilai agar sesuai dengan rentang tipe data target, yang dapat memengaruhi granularitas nilai. Misalnya, kuantisasi dari FP16 ke FP8 mengurangi detail dan resolusi nilai. Pustaka Model Optimizer PTQ menyediakan teknik optimasi tingkat lanjut untuk meningkatkan kinerja inferensi model dan dapat diimplementasikan dalam berbagai kerangka kerja inferensi.
Pengoptimal Model mendukung berbagai format kuantisasi dan menawarkan beberapa metode kalibrasi untuk membantu Anda memilih format dan kalibrasi yang tepat untuk model dan beban kerja spesifik Anda. Metode-metode ini meliputi Kalibrasi Min-Maks, SmoothQuant, AWQ, dan AutoQuantize. Setiap metode memiliki keunggulannya sendiri dan memengaruhi akurasi akhir model terkuantisasi Anda, jadi Anda harus mempertimbangkannya dengan mempertimbangkan persyaratan sensitivitas dan latency beban kerja Anda.
Singkatnya, kuantisasi merupakan teknik ampuh untuk meningkatkan inferensi model, didukung oleh ekosistem teknologi sumber terbuka yang terus berkembang. Kerangka kerja TensorRT Model Optimizer PTQ dari NVIDIA menyediakan perangkat komprehensif bagi pengembang untuk kompresi model yang menjaga akurasi dan meningkatkan penerapan AI. Pengembang dapat merasakan manfaat ini secara langsung dengan mengikuti tutorial Jupyter Notebook dan bereksperimen dengan titik pemeriksaan pra-kuantisasi.
Bagikan artikel ini:
Tin tức mới nhất
Shoeisha Security Online Day diselenggarakan.
16/2/26, 00.00
EnterpriseZine, yang dioperasikan oleh Shoeisha (Shinjuku-ku, Tokyo), akan menyelenggarakan Security Online Day 2025 Spring secara daring pada tanggal 17 Maret 2026.
Layanan optimasi web SSS AI diluncurkan.
16/2/26, 00.00
Sun Strategic Solutions (Minato-ku, Tokyo) telah mengumumkan bahwa mereka akan mulai menawarkan "Layanan AIO."
Kompetisi AI Prompt Treasure Foot Saga
16/2/26, 00.00
Treasure Foot (Kamakura, Prefektur Kanagawa) dan Togabai AI Consulting akan menyelenggarakan "Kontes Prompt AI"
Copyright © 2024 Generatived - All right Reserved.
Bagikan artikel ini:
Bagikan artikel ini:
Kategori
Berita
AI dan hukum/peraturan/masyarakat
Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.
Berita terkini
Shoeisha Security Online Day diselenggarakan.
16/2/26, 00.00
EnterpriseZine, yang dioperasikan oleh Shoeisha (Shinjuku-ku, Tokyo), akan menyelenggarakan Security Online Day 2025 Spring secara daring pada tanggal 17 Maret 2026.
Layanan optimasi web SSS AI diluncurkan.
16/2/26, 00.00
Sun Strategic Solutions (Minato-ku, Tokyo) telah mengumumkan bahwa mereka akan mulai menawarkan "Layanan AIO."
Kompetisi AI Prompt Treasure Foot Saga
16/2/26, 00.00
Treasure Foot (Kamakura, Prefektur Kanagawa) dan Togabai AI Consulting akan menyelenggarakan "Kontes Prompt AI"



%20(1).webp)


