top of page
Generatif (Beta) |. Memberikan berita dan tren terkini dalam AI generatif
logo.png

NVIDIA TensorRT Mendukung AI dengan Pengoptimal Model

Generatived

5/8/25, 00.00

Kuantisasi telah menjadi teknik penting bagi pengembang untuk meningkatkan kinerja inferensi model AI. Mengurangi presisi model dapat meningkatkan latency, throughput, dan efisiensi memori tanpa memerlukan pelatihan ulang. Saat ini, model umumnya dilatih dalam FP16 atau BF16, dengan beberapa model lanjutan menggunakan FP8. Memperluas kuantisasi ke format seperti FP4 menjanjikan peningkatan efisiensi yang lebih besar.

Kerangka kerja kuantisasi pasca-pelatihan (PTQ) TensorRT Model Optimizer NVIDIA menyediakan solusi fleksibel dan modular untuk menerapkan optimasi ini. Kerangka kerja ini mendukung berbagai format, termasuk NVFP4, yang dikustomisasi untuk GPU NVIDIA Blackwell. Kerangka kerja ini menggabungkan teknik kalibrasi, seperti SmoothQuant, kuantisasi bobot berbasis aktivasi (AWQ), dan AutoQuantize, untuk meningkatkan hasil kuantisasi. Selain itu, PTQ Model Optimizer dirancang dengan mempertimbangkan kompatibilitas ekosistem, mendukung checkpoint PyTorch, Hugging Face, NeMo, dan Megatron-LM asli, serta mudah diintegrasikan dengan kerangka kerja inferensi seperti NVIDIA TensorRT-LLM, vLLM, dan SGLang.

Artikel ini memberikan detail lebih lanjut tentang teknologi PTQ dan menjelaskan bagaimana Model Optimizer PTQ dapat digunakan untuk mengompresi model AI dengan tetap mempertahankan akurasi tinggi. Hal ini tidak hanya meningkatkan pengalaman pengguna tetapi juga meningkatkan kinerja aplikasi AI. Jaringan saraf tiruan terdiri dari lapisan-lapisan dengan nilai-nilai yang telah disetel dengan baik melalui proses pra dan pasca pelatihan. Nilai-nilai ini, yang disimpan sebagai bobot, aktivasi, dan bias, awalnya dilatih dengan presisi penuh, dan kemudian dikuantisasi ke format presisi yang lebih rendah, seperti 8-bit atau 4-bit, memungkinkan nilai-nilai tersebut dikompresi ke dalam rentang representasi yang lebih kecil.

Proses kuantisasi menyesuaikan nilai agar sesuai dengan rentang tipe data target, yang dapat memengaruhi granularitas nilai. Misalnya, kuantisasi dari FP16 ke FP8 mengurangi detail dan resolusi nilai. Pustaka Model Optimizer PTQ menyediakan teknik optimasi tingkat lanjut untuk meningkatkan kinerja inferensi model dan dapat diimplementasikan dalam berbagai kerangka kerja inferensi.

Pengoptimal Model mendukung berbagai format kuantisasi dan menawarkan beberapa metode kalibrasi untuk membantu Anda memilih format dan kalibrasi yang tepat untuk model dan beban kerja spesifik Anda. Metode-metode ini meliputi Kalibrasi Min-Maks, SmoothQuant, AWQ, dan AutoQuantize. Setiap metode memiliki keunggulannya sendiri dan memengaruhi akurasi akhir model terkuantisasi Anda, jadi Anda harus mempertimbangkannya dengan mempertimbangkan persyaratan sensitivitas dan latency beban kerja Anda.

Singkatnya, kuantisasi merupakan teknik ampuh untuk meningkatkan inferensi model, didukung oleh ekosistem teknologi sumber terbuka yang terus berkembang. Kerangka kerja TensorRT Model Optimizer PTQ dari NVIDIA menyediakan perangkat komprehensif bagi pengembang untuk kompresi model yang menjaga akurasi dan meningkatkan penerapan AI. Pengembang dapat merasakan manfaat ini secara langsung dengan mengikuti tutorial Jupyter Notebook dan bereksperimen dengan titik pemeriksaan pra-kuantisasi.

Bagikan artikel ini:

Tin tức mới nhất
Memperluas platform AI khusus industri data AI

Memperluas platform AI khusus industri data AI

16/2/26, 00.00

AI Data (Minato-ku, Tokyo) telah mengumumkan perluasan platform AI khusus bisnisnya. Perusahaan akan memperkuat "AI Factory" yang menyediakan dukungan lintas industri

Peluncuran Layanan Dukungan Divisi Bisnis AIX Baru Bloom

Peluncuran Layanan Dukungan Divisi Bisnis AIX Baru Bloom

16/2/26, 00.00

Bloom (Chiyoda-ku, Tokyo) berfokus pada penggunaan AI untuk meningkatkan efisiensi bisnis dan menyediakan layanan dukungan AI kepada perusahaan.

Peningkatan Keamanan AI Digeon ENSOU

Peningkatan Keamanan AI Digeon ENSOU

16/2/26, 00.00

Digeon (Kobe, Prefektur Hyogo) telah menambahkan otentikasi masuk tunggal menggunakan akun Microsoft dan fungsi pembatasan alamat IP ke agen Generative AI

Peluncuran rekrutmen agen AI PeopleX

Peluncuran rekrutmen agen AI PeopleX

16/2/26, 00.00

PeopleX (Shinjuku-ku, Tokyo) telah meluncurkan layanan agen AI-nya, "PeopleX AI Copilot."

Copyright © 2024 Generatived - All right Reserved.

Bagikan artikel ini:

Bagikan artikel ini:

Generatived

Hãy theo dõi chúng tôi

  • Facebook
  • X

Bahasa

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Generatived AI Logo

Generatived adalah layanan yang memberikan informasi dan tren khusus dalam AI Generatif. Kami akan melakukan yang terbaik untuk menyampaikan informasi tentang dunia yang berubah dengan cepat.

  • Facebook
  • X

Ikuti kami

Bahasa

Berita terkini
Memperluas platform AI khusus industri data AI

Memperluas platform AI khusus industri data AI

16/2/26, 00.00

AI Data (Minato-ku, Tokyo) telah mengumumkan perluasan platform AI khusus bisnisnya. Perusahaan akan memperkuat "AI Factory" yang menyediakan dukungan lintas industri

Peluncuran Layanan Dukungan Divisi Bisnis AIX Baru Bloom

Peluncuran Layanan Dukungan Divisi Bisnis AIX Baru Bloom

16/2/26, 00.00

Bloom (Chiyoda-ku, Tokyo) berfokus pada penggunaan AI untuk meningkatkan efisiensi bisnis dan menyediakan layanan dukungan AI kepada perusahaan.

Peningkatan Keamanan AI Digeon ENSOU

Peningkatan Keamanan AI Digeon ENSOU

16/2/26, 00.00

Digeon (Kobe, Prefektur Hyogo) telah menambahkan otentikasi masuk tunggal menggunakan akun Microsoft dan fungsi pembatasan alamat IP ke agen Generative AI

Peluncuran rekrutmen agen AI PeopleX

Peluncuran rekrutmen agen AI PeopleX

16/2/26, 00.00

PeopleX (Shinjuku-ku, Tokyo) telah meluncurkan layanan agen AI-nya, "PeopleX AI Copilot."

bottom of page