Generatif (Beta) |. Memberikan berita dan tren terkini dalam AI generatif

NVIDIA Mempercepat Inferensi LLM dengan Skip Softmax
Generatived
18/12/25, 00.00
Para insinyur pembelajaran mesin yang bekerja dengan model bahasa besar (LLM) sering menghadapi tantangan utama: seiring bertambahnya panjang konteks model, biaya komputasi yang terkait dengan mekanisme perhatian meroket. Untuk mengatasi masalah ini, diperkenalkan teknik baru yang disebut Skip Softmax. Teknik ini mempercepat waktu inferensi tanpa memerlukan pelatihan ulang. Kompatibel dengan NVIDIA TensorRT-LLM, teknik ini mencapai peningkatan kecepatan inferensi hingga 1,4x baik dalam waktu ke token pertama maupun waktu per token keluaran.
Skip Softmax bekerja dengan memanfaatkan sifat jarang (sparse) yang melekat pada titik-titik minat dalam LLM dan secara dinamis memangkas blok-blok minat. Dengan menghitung logit maksimum dari suatu blok dan membandingkannya dengan maksimum global, kita dapat melewati blok-blok yang kontribusinya terhadap keluaran akhir dapat diabaikan. Proses ini tidak hanya menghemat sumber daya komputasi, tetapi juga mengurangi kebutuhan untuk memuat data dari memori, sehingga memungkinkan pemanfaatan perangkat keras yang lebih efisien.
Manfaat Skip Softmax meluas hingga kompatibilitasnya dengan model pra-terlatih yang ada dan optimasinya untuk inti tensor dan hierarki memori GPU NVIDIA Hopper dan Blackwell. Ketika digunakan bersamaan dengan teknik optimasi lainnya, seperti XAttention, teknik ini dapat lebih meningkatkan kinerja tanpa mengorbankan akurasi. Teknik ini sangat efektif dalam skenario dengan panjang konteks yang panjang, secara signifikan mengurangi beban komputasi baik pada fase pra-pengisian maupun dekode inferensi LLM.
Untuk mengimplementasikan Skip Softmax, Anda dapat menggunakan pengaturan sparse attention dari API LLM di dalam NVIDIA TensorRT-LLM. Teknik ini didukung pada GPU pusat data NVIDIA dan dapat diaktifkan dengan perubahan konfigurasi sederhana. Untuk informasi lebih lanjut, silakan lihat sumber daya seperti BLASST: Dynamic Blocked Attention Sparsity via Softmax Thresholding dan dokumentasi TensorRT-LLM. Sumber daya ini memberikan informasi rinci tentang teknik ini dan aplikasinya.
Bagikan artikel ini:
Tin tức mới nhất
Eksperimen Penyederhanaan Administrasi Kantor Balai Kota Sapporo oleh NTT Data Hokkaido dan NTT-AT
12/12/25, 00.00
NTT Data Hokkaido (Sapporo, Hokkaido) dan NTT-AT (Shinjuku, Tokyo) telah mengumumkan bahwa mereka akan bersama-sama melakukan percobaan demonstrasi yang bertujuan
Google DeepMind memperluas kolaborasi penelitian keamanan AI dengan Inggris.
12/12/25, 00.00
Kolaborasi kami yang diperluas dengan UK AI Security Institute (AISI) menandai langkah penting menuju terwujudnya pengembangan kecerdasan buatan yang lebih aman.
OpenAI Meningkatkan Model AI Keamanan Siber dan Langkah-Langkah Keamanan
12/12/25, 00.00
Model AI dalam keamanan siber telah mengalami kemajuan signifikan, meningkatkan kemampuan serangan "capture-the-flag" dari 27% menjadi 76% hanya dalam beberapa bulan.
Copyright © 2024 Generatived - All right Reserved.
Bagikan artikel ini:
Bagikan artikel ini:
Kategori
Berita
AI dan hukum/peraturan/masyarakat
Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.
Berita terkini
Eksperimen Penyederhanaan Administrasi Kantor Balai Kota Sapporo oleh NTT Data Hokkaido dan NTT-AT
12/12/25, 00.00
NTT Data Hokkaido (Sapporo, Hokkaido) dan NTT-AT (Shinjuku, Tokyo) telah mengumumkan bahwa mereka akan bersama-sama melakukan percobaan demonstrasi yang bertujuan
Google DeepMind memperluas kolaborasi penelitian keamanan AI dengan Inggris.
12/12/25, 00.00
Kolaborasi kami yang diperluas dengan UK AI Security Institute (AISI) menandai langkah penting menuju terwujudnya pengembangan kecerdasan buatan yang lebih aman.
OpenAI Meningkatkan Model AI Keamanan Siber dan Langkah-Langkah Keamanan
12/12/25, 00.00
Model AI dalam keamanan siber telah mengalami kemajuan signifikan, meningkatkan kemampuan serangan "capture-the-flag" dari 27% menjadi 76% hanya dalam beberapa bulan.



%20(1).webp)


