Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

NVIDIA công bố công nghệ Grace Tech giúp tăng hiệu quả LLM
Generatived
0:00 9/9/25
Các mô hình ngôn ngữ lớn (LLM) đang mở rộng ranh giới của trí tuệ nhân tạo, nhưng kích thước khổng lồ của chúng đặt ra những thách thức đối với hiệu quả suy luận. Ví dụ, các mô hình Llama 3 70B và Llama 4 Scout 109B yêu cầu dung lượng bộ nhớ rất lớn, thường vượt quá dung lượng bộ nhớ khả dụng của GPU. Khi được tải ở độ chính xác một nửa, các mô hình này yêu cầu lần lượt khoảng 140GB và 218GB bộ nhớ. Các cấu trúc dữ liệu như bộ đệm khóa-giá trị (KV) cũng yêu cầu thêm bộ nhớ, có thể tăng đáng kể tùy thuộc vào độ dài ngữ cảnh và kích thước lô.
Để giải quyết những hạn chế về bộ nhớ này, NVIDIA đã giới thiệu các kiến trúc như Grace Blackwell và Grace Hopper, với kết nối NVLink-C2C. Công nghệ này cung cấp kết nối đồng bộ bộ nhớ giữa CPU và GPU, cho phép chia sẻ không gian địa chỉ bộ nhớ. Hệ thống bộ nhớ hợp nhất này cho phép cả CPU và GPU truy cập và xử lý cùng một dữ liệu mà không yêu cầu truyền dữ liệu rõ ràng, tạo điều kiện thuận lợi cho việc xử lý các tập dữ liệu và mô hình lớn vượt quá giới hạn bộ nhớ GPU truyền thống.
Việc triển khai các mô hình trên các nền tảng như NVIDIA GH200 Grace Hopper Superchip cho phép chúng sử dụng liền mạch cả bộ nhớ băng thông cao của GPU và bộ nhớ LPDDR của CPU. Sự tích hợp này làm tăng đáng kể dung lượng bộ nhớ khả dụng, cho phép chạy các mô hình và tập dữ liệu lớn hơn mà không gặp lỗi hết bộ nhớ.
Trên thực tế, việc cố gắng tải một mô hình như Llama 3 70B lên GPU có dung lượng bộ nhớ hạn chế có thể dẫn đến lỗi hết bộ nhớ. Tuy nhiên, bằng cách tận dụng phân bổ bộ nhớ được quản lý và kiến trúc bộ nhớ thống nhất của một hệ thống như GH200, GPU có thể truy cập thêm bộ nhớ CPU. Phương pháp này cho phép các nhà phát triển chạy các mô hình vượt quá giới hạn vật lý của bộ nhớ GPU, tránh nhu cầu truyền dữ liệu thủ công và đơn giản hóa quy trình chạy các LLM tiên tiến trên các nền tảng phần cứng tiên tiến.
Chia sẻ bài viết này:
Tin tức mới nhất
Gemini ra mắt phiên bản chung tại Google GDC
0:00 9/9/25
Google(Hoa Kỳ) đã công bố nỗ lực triển khai Gemini trong môi trường tại chỗ.
NVIDIA công bố công nghệ Grace Tech giúp tăng hiệu quả LLM
0:00 9/9/25
Các mô hình ngôn ngữ quy mô lớn (LLM) đang mở rộng ranh giới của trí tuệ nhân tạo, nhưng quy mô lớn của chúng đặt ra thách thức đối với hiệu quả suy luận.
Microsoft công bố tích hợp AI để hỗ trợ các công ty tiên tiến
0:00 9/9/25
Các công ty tiên phong đang nổi lên như những công ty dẫn đầu ngành bằng cách tích hợp AI để cải thiện trải nghiệm của nhân viên, sự gắn kết của khách hàng và chuyển đổi quy trình kinh doanh.
Copyright © 2024 Generatived - All right Reserved.
Chia sẻ bài viết này:
Chia sẻ bài viết này:
Danh mục
Tin tức
AI và luật/hệ thống/kinh tế/xã hội
Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.
Tin tức mới nhất
Gemini ra mắt phiên bản chung tại Google GDC
0:00 9/9/25
Google(Hoa Kỳ) đã công bố nỗ lực triển khai Gemini trong môi trường tại chỗ.
NVIDIA công bố công nghệ Grace Tech giúp tăng hiệu quả LLM
0:00 9/9/25
Các mô hình ngôn ngữ quy mô lớn (LLM) đang mở rộng ranh giới của trí tuệ nhân tạo, nhưng quy mô lớn của chúng đặt ra thách thức đối với hiệu quả suy luận.
Microsoft công bố tích hợp AI để hỗ trợ các công ty tiên tiến
0:00 9/9/25
Các công ty tiên phong đang nổi lên như những công ty dẫn đầu ngành bằng cách tích hợp AI để cải thiện trải nghiệm của nhân viên, sự gắn kết của khách hàng và chuyển đổi quy trình kinh doanh.