NVIDIA Mengumumkan Grace Tech untuk Efisiensi LLM

Generatif (Beta) |. Memberikan berita dan tren terkini dalam AI generatif

NVIDIA Mengumumkan Grace Tech untuk Efisiensi LLM

Generatived

9/9/25, 00.00

Model bahasa besar (LLM) mendorong batasan kecerdasan buatan, tetapi ukurannya yang besar menimbulkan tantangan bagi efisiensi inferensi. Misalnya, model Llama 3 70B dan Llama 4 Scout 109B membutuhkan kapasitas memori yang sangat besar, seringkali melebihi kapasitas memori GPU yang tersedia. Ketika dimuat dengan presisi setengah, model ini masing-masing membutuhkan sekitar 140 GB dan 218 GB memori. Struktur data seperti cache kunci-nilai (KV) juga membutuhkan memori tambahan, yang dapat meningkat secara signifikan tergantung pada panjang konteks dan ukuran batch.

Untuk mengatasi kendala memori ini, NVIDIA telah memperkenalkan arsitektur seperti Grace Blackwell dan Grace Hopper, yang dilengkapi interkoneksi NVLink-C2C. Teknologi ini menyediakan koneksi yang koheren terhadap memori antara CPU dan GPU, memungkinkan ruang alamat memori bersama. Sistem memori terpadu ini memungkinkan CPU dan GPU untuk mengakses dan memproses data yang sama tanpa memerlukan transfer data eksplisit, sehingga memfasilitasi pemrosesan set data dan model besar yang melampaui batasan memori GPU tradisional.

Penerapan model pada platform seperti NVIDIA GH200 Grace Hopper Superchip memungkinkan mereka memanfaatkan memori bandwidth tinggi GPU dan memori LPDDR CPU secara mulus. Integrasi ini secara signifikan meningkatkan jumlah memori yang tersedia, memungkinkan model dan set data yang lebih besar untuk dijalankan tanpa mengalami kesalahan kehabisan memori.

Dalam praktiknya, upaya memuat model seperti Llama 3 70B ke GPU dengan kapasitas memori terbatas dapat mengakibatkan kesalahan kehabisan memori. Namun, dengan memanfaatkan alokasi memori terkelola dan arsitektur memori terpadu dari sistem seperti GH200, GPU dapat mengakses memori CPU tambahan. Pendekatan ini memungkinkan pengembang untuk menjalankan model yang melampaui batas fisik memori GPU, menghindari kebutuhan transfer data manual, dan menyederhanakan proses menjalankan LLM mutakhir pada platform perangkat keras canggih.

Sumber: Blog Pengembang NVIDIA

Bagikan artikel ini:

Tin tức mới nhất

Gemini Meluncurkan Ketersediaan Umum di Google GDC

9/9/25, 00.00

Google(AS) mengumumkan upaya untuk membuat Gemini tersedia di lingkungan lokal.

Baca lebih lanjut

NVIDIA Mengumumkan Grace Tech untuk Efisiensi LLM

9/9/25, 00.00

Model bahasa skala besar (LLM) mendorong batasan kecerdasan buatan, tetapi ukurannya yang besar menimbulkan tantangan pada efisiensi inferensi.

Baca lebih lanjut

Microsoft mengumumkan integrasi AI untuk membantu perusahaan-perusahaan terdepan

9/9/25, 00.00

Perusahaan-perusahaan perintis muncul sebagai pemimpin industri dengan mengintegrasikan AI untuk meningkatkan pengalaman karyawan, keterlibatan pelanggan, dan mengubah proses bisnis.

Baca lebih lanjut

Google Tech merayakan ulang tahun ke-10 dengan GKE Hackathon

9/9/25, 00.00

Google Kubernetes Engine (GKE) merayakan 10 tahun kontribusinya terhadap kemajuan di berbagai bidang teknologi, termasuk AI dan komputasi tepi.

Baca lebih lanjut

Bagikan artikel ini:

Kategori

Peningkat Gambar AI

Pembuat kode AI

Manajemen tugas AI

Tanpa kode/kode rendah

Generator desain grafis AI

Generator seni/ilustrasi AI

Semua alat

Berita

AI dan hukum/peraturan/masyarakat

Perusahaan/produk/teknologi AI

AI Teknologi Besar

OpenAI/ChatGPT

AI generasi kreatif

AI generasi berbasis teks

AI generatif Jepang

Dasar-dasar AI generatif

Panduan penerapan AI terbaik

Profil perusahaan

Tentang kami

Chính sách quyền riêng tư

Điều khoản sử dụng trang web

Công ty điều hành

Hãy theo dõi chúng tôi

Bahasa

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Generatived adalah layanan yang memberikan informasi dan tren khusus dalam AI Generatif. Kami akan melakukan yang terbaik untuk menyampaikan informasi tentang dunia yang berubah dengan cepat.

Ikuti kami

Bahasa

Kategori

Semua alat

Manajemen tugas AI

Generator desain grafis AI

Tanpa kode/kode rendah

Pembuat kode AI

Peningkat Gambar AI

Pembuat Seni/Ilustrasi AI

AI dan hukum/sistem/ekonomi/masyarakat

Perusahaan/produk/teknologi AI

AI berteknologi besar

OpenAI/ChatGPT

AI generasi inovatif

AI generasi berbasis teks

AI inovatif Jepang

Dasar-dasar AI generatif

Petunjuk dasar aplikasi AI

Tin tức

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng của trang web

Công ty điều hành

Hồ sơ công ty

Berita terkini

Gemini Meluncurkan Ketersediaan Umum di Google GDC

9/9/25, 00.00

Google(AS) mengumumkan upaya untuk membuat Gemini tersedia di lingkungan lokal.

Baca lebih lanjut

NVIDIA Mengumumkan Grace Tech untuk Efisiensi LLM

9/9/25, 00.00

Model bahasa skala besar (LLM) mendorong batasan kecerdasan buatan, tetapi ukurannya yang besar menimbulkan tantangan pada efisiensi inferensi.

Baca lebih lanjut

Microsoft mengumumkan integrasi AI untuk membantu perusahaan-perusahaan terdepan

9/9/25, 00.00

Perusahaan-perusahaan perintis muncul sebagai pemimpin industri dengan mengintegrasikan AI untuk meningkatkan pengalaman karyawan, keterlibatan pelanggan, dan mengubah proses bisnis.

Baca lebih lanjut

Google Tech merayakan ulang tahun ke-10 dengan GKE Hackathon

9/9/25, 00.00

Google Kubernetes Engine (GKE) merayakan 10 tahun kontribusinya terhadap kemajuan di berbagai bidang teknologi, termasuk AI dan komputasi tepi.

Baca lebih lanjut