top of page
Generatif (Beta) |. Memberikan berita dan tren terkini dalam AI generatif
logo.png

NVIDIA Mengumumkan Grace Tech untuk Efisiensi LLM

Generatived

9/9/25, 00.00

Model bahasa besar (LLM) mendorong batasan kecerdasan buatan, tetapi ukurannya yang besar menimbulkan tantangan bagi efisiensi inferensi. Misalnya, model Llama 3 70B dan Llama 4 Scout 109B membutuhkan kapasitas memori yang sangat besar, seringkali melebihi kapasitas memori GPU yang tersedia. Ketika dimuat dengan presisi setengah, model ini masing-masing membutuhkan sekitar 140 GB dan 218 GB memori. Struktur data seperti cache kunci-nilai (KV) juga membutuhkan memori tambahan, yang dapat meningkat secara signifikan tergantung pada panjang konteks dan ukuran batch.

Untuk mengatasi kendala memori ini, NVIDIA telah memperkenalkan arsitektur seperti Grace Blackwell dan Grace Hopper, yang dilengkapi interkoneksi NVLink-C2C. Teknologi ini menyediakan koneksi yang koheren terhadap memori antara CPU dan GPU, memungkinkan ruang alamat memori bersama. Sistem memori terpadu ini memungkinkan CPU dan GPU untuk mengakses dan memproses data yang sama tanpa memerlukan transfer data eksplisit, sehingga memfasilitasi pemrosesan set data dan model besar yang melampaui batasan memori GPU tradisional.

Penerapan model pada platform seperti NVIDIA GH200 Grace Hopper Superchip memungkinkan mereka memanfaatkan memori bandwidth tinggi GPU dan memori LPDDR CPU secara mulus. Integrasi ini secara signifikan meningkatkan jumlah memori yang tersedia, memungkinkan model dan set data yang lebih besar untuk dijalankan tanpa mengalami kesalahan kehabisan memori.

Dalam praktiknya, upaya memuat model seperti Llama 3 70B ke GPU dengan kapasitas memori terbatas dapat mengakibatkan kesalahan kehabisan memori. Namun, dengan memanfaatkan alokasi memori terkelola dan arsitektur memori terpadu dari sistem seperti GH200, GPU dapat mengakses memori CPU tambahan. Pendekatan ini memungkinkan pengembang untuk menjalankan model yang melampaui batas fisik memori GPU, menghindari kebutuhan transfer data manual, dan menyederhanakan proses menjalankan LLM mutakhir pada platform perangkat keras canggih.

Bagikan artikel ini:

Tin tức mới nhất
Gemini Meluncurkan Ketersediaan Umum di Google GDC

Gemini Meluncurkan Ketersediaan Umum di Google GDC

9/9/25, 00.00

Google(AS) mengumumkan upaya untuk membuat Gemini tersedia di lingkungan lokal.

NVIDIA Mengumumkan Grace Tech untuk Efisiensi LLM

NVIDIA Mengumumkan Grace Tech untuk Efisiensi LLM

9/9/25, 00.00

Model bahasa skala besar (LLM) mendorong batasan kecerdasan buatan, tetapi ukurannya yang besar menimbulkan tantangan pada efisiensi inferensi.

Microsoft mengumumkan integrasi AI untuk membantu perusahaan-perusahaan terdepan

Microsoft mengumumkan integrasi AI untuk membantu perusahaan-perusahaan terdepan

9/9/25, 00.00

Perusahaan-perusahaan perintis muncul sebagai pemimpin industri dengan mengintegrasikan AI untuk meningkatkan pengalaman karyawan, keterlibatan pelanggan, dan mengubah proses bisnis.

Google Tech merayakan ulang tahun ke-10 dengan GKE Hackathon

Google Tech merayakan ulang tahun ke-10 dengan GKE Hackathon

9/9/25, 00.00

Google Kubernetes Engine (GKE) merayakan 10 tahun kontribusinya terhadap kemajuan di berbagai bidang teknologi, termasuk AI dan komputasi tepi.

Copyright © 2024 Generatived - All right Reserved.

Bagikan artikel ini:

Bagikan artikel ini:

Generatived

Hãy theo dõi chúng tôi

  • Facebook
  • X

Bahasa

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Generatived AI Logo

Generatived adalah layanan yang memberikan informasi dan tren khusus dalam AI Generatif. Kami akan melakukan yang terbaik untuk menyampaikan informasi tentang dunia yang berubah dengan cepat.

  • Facebook
  • X

Ikuti kami

Bahasa

Berita terkini
Gemini Meluncurkan Ketersediaan Umum di Google GDC

Gemini Meluncurkan Ketersediaan Umum di Google GDC

9/9/25, 00.00

Google(AS) mengumumkan upaya untuk membuat Gemini tersedia di lingkungan lokal.

NVIDIA Mengumumkan Grace Tech untuk Efisiensi LLM

NVIDIA Mengumumkan Grace Tech untuk Efisiensi LLM

9/9/25, 00.00

Model bahasa skala besar (LLM) mendorong batasan kecerdasan buatan, tetapi ukurannya yang besar menimbulkan tantangan pada efisiensi inferensi.

Microsoft mengumumkan integrasi AI untuk membantu perusahaan-perusahaan terdepan

Microsoft mengumumkan integrasi AI untuk membantu perusahaan-perusahaan terdepan

9/9/25, 00.00

Perusahaan-perusahaan perintis muncul sebagai pemimpin industri dengan mengintegrasikan AI untuk meningkatkan pengalaman karyawan, keterlibatan pelanggan, dan mengubah proses bisnis.

Google Tech merayakan ulang tahun ke-10 dengan GKE Hackathon

Google Tech merayakan ulang tahun ke-10 dengan GKE Hackathon

9/9/25, 00.00

Google Kubernetes Engine (GKE) merayakan 10 tahun kontribusinya terhadap kemajuan di berbagai bidang teknologi, termasuk AI dan komputasi tepi.

bottom of page