NVIDIA Mempercepat Inferensi LLM dengan Skip Softmax 56/3983

Generatif (Beta) |. Memberikan berita dan tren terkini dalam AI generatif

NVIDIA Mempercepat Inferensi LLM dengan Skip Softmax

Generatived

18/12/25, 00.00

Para insinyur pembelajaran mesin yang bekerja dengan model bahasa besar (LLM) sering menghadapi tantangan utama: seiring bertambahnya panjang konteks model, biaya komputasi yang terkait dengan mekanisme perhatian meroket. Untuk mengatasi masalah ini, diperkenalkan teknik baru yang disebut Skip Softmax. Teknik ini mempercepat waktu inferensi tanpa memerlukan pelatihan ulang. Kompatibel dengan NVIDIA TensorRT-LLM, teknik ini mencapai peningkatan kecepatan inferensi hingga 1,4x baik dalam waktu ke token pertama maupun waktu per token keluaran.

Skip Softmax bekerja dengan memanfaatkan sifat jarang (sparse) yang melekat pada titik-titik minat dalam LLM dan secara dinamis memangkas blok-blok minat. Dengan menghitung logit maksimum dari suatu blok dan membandingkannya dengan maksimum global, kita dapat melewati blok-blok yang kontribusinya terhadap keluaran akhir dapat diabaikan. Proses ini tidak hanya menghemat sumber daya komputasi, tetapi juga mengurangi kebutuhan untuk memuat data dari memori, sehingga memungkinkan pemanfaatan perangkat keras yang lebih efisien.

Manfaat Skip Softmax meluas hingga kompatibilitasnya dengan model pra-terlatih yang ada dan optimasinya untuk inti tensor dan hierarki memori GPU NVIDIA Hopper dan Blackwell. Ketika digunakan bersamaan dengan teknik optimasi lainnya, seperti XAttention, teknik ini dapat lebih meningkatkan kinerja tanpa mengorbankan akurasi. Teknik ini sangat efektif dalam skenario dengan panjang konteks yang panjang, secara signifikan mengurangi beban komputasi baik pada fase pra-pengisian maupun dekode inferensi LLM.

Untuk mengimplementasikan Skip Softmax, Anda dapat menggunakan pengaturan sparse attention dari API LLM di dalam NVIDIA TensorRT-LLM. Teknik ini didukung pada GPU pusat data NVIDIA dan dapat diaktifkan dengan perubahan konfigurasi sederhana. Untuk informasi lebih lanjut, silakan lihat sumber daya seperti BLASST: Dynamic Blocked Attention Sparsity via Softmax Thresholding dan dokumentasi TensorRT-LLM. Sumber daya ini memberikan informasi rinci tentang teknik ini dan aplikasinya.

Sumber: Blog Pengembang NVIDIA

Bagikan artikel ini:

Tin tức mới nhất

Panduan Penanggulangan Risiko AI APTO Telah Dirilis

12/12/25, 00.00

APTO (Shibuya-ku, Tokyo) telah merilis materi yang memberikan pengetahuan dasar tentang langkah-langkah penanggulangan risiko AI dan batasan-batasan LLM.

Baca lebih lanjut

Pembuatan deskripsi produk berbasis AI awoo dimulai.

12/12/25, 00.00

awoo (Shibuya-ku, Tokyo) telah mulai menawarkan "awoo Description Writer," yang menggunakan AI untuk membaca fitur produk dari gambar produk dan menghasilkan deskripsi produk yang tampak alami.

Baca lebih lanjut

Peningkatan agen AI yang kompatibel dengan BLUEISH OCI

12/12/25, 00.00

BLUEISH (Minato-ku, Tokyo) mengumumkan bahwa platform agen AI perusahaan mereka, "BLUEISH Agents," secara resmi telah mulai mendukung Oracle Cloud Infrastructure (OCI).

Baca lebih lanjut

Dukungan SEO/SEM dan SNS yang mudah dengan GMO AI.

12/12/25, 00.00

GMO NIKKO (Tokyo) mengumumkan bahwa mereka akan mulai menawarkan "GMO AI Easy Customer Attraction," sebuah alat pendukung daya tarik pelanggan berbasis web yang memanfaatkan AI, mulai 11 Desember 2025.

Baca lebih lanjut

Bagikan artikel ini:

Kategori

Peningkat Gambar AI

Pembuat kode AI

Manajemen tugas AI

Tanpa kode/kode rendah

Generator desain grafis AI

Generator seni/ilustrasi AI

Semua alat

Berita

AI dan hukum/peraturan/masyarakat

Perusahaan/produk/teknologi AI

AI Teknologi Besar

OpenAI/ChatGPT

AI generasi kreatif

AI generasi berbasis teks

AI generatif Jepang

Dasar-dasar AI generatif

Panduan penerapan AI terbaik

Profil perusahaan

Tentang kami

Chính sách quyền riêng tư

Điều khoản sử dụng trang web

Công ty điều hành

Hãy theo dõi chúng tôi

Bahasa

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Generatived adalah layanan yang memberikan informasi dan tren khusus dalam AI Generatif. Kami akan melakukan yang terbaik untuk menyampaikan informasi tentang dunia yang berubah dengan cepat.

Ikuti kami

Bahasa

Kategori

Semua alat

Manajemen tugas AI

Generator desain grafis AI

Tanpa kode/kode rendah

Pembuat kode AI

Peningkat Gambar AI

Pembuat Seni/Ilustrasi AI

AI dan hukum/sistem/ekonomi/masyarakat

Perusahaan/produk/teknologi AI

AI berteknologi besar

OpenAI/ChatGPT

AI generasi inovatif

AI generasi berbasis teks

AI inovatif Jepang

Dasar-dasar AI generatif

Petunjuk dasar aplikasi AI

Tin tức

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng của trang web

Công ty điều hành

Hồ sơ công ty

Berita terkini

Panduan Penanggulangan Risiko AI APTO Telah Dirilis

12/12/25, 00.00

APTO (Shibuya-ku, Tokyo) telah merilis materi yang memberikan pengetahuan dasar tentang langkah-langkah penanggulangan risiko AI dan batasan-batasan LLM.

Baca lebih lanjut

Pembuatan deskripsi produk berbasis AI awoo dimulai.

12/12/25, 00.00

awoo (Shibuya-ku, Tokyo) telah mulai menawarkan "awoo Description Writer," yang menggunakan AI untuk membaca fitur produk dari gambar produk dan menghasilkan deskripsi produk yang tampak alami.

Baca lebih lanjut

Peningkatan agen AI yang kompatibel dengan BLUEISH OCI

12/12/25, 00.00

BLUEISH (Minato-ku, Tokyo) mengumumkan bahwa platform agen AI perusahaan mereka, "BLUEISH Agents," secara resmi telah mulai mendukung Oracle Cloud Infrastructure (OCI).

Baca lebih lanjut

Dukungan SEO/SEM dan SNS yang mudah dengan GMO AI.

12/12/25, 00.00

GMO NIKKO (Tokyo) mengumumkan bahwa mereka akan mulai menawarkan "GMO AI Easy Customer Attraction," sebuah alat pendukung daya tarik pelanggan berbasis web yang memanfaatkan AI, mulai 11 Desember 2025.

Baca lebih lanjut