Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

NVIDIA công bố KV Cache Offload cho LLM

Generatived

0:00 22/9/25

Khi các mô hình AI trở nên phức tạp hơn, việc quản lý bộ nhớ đệm khóa-giá trị (KV) trong quá trình suy luận ngày càng trở nên quan trọng. Bộ nhớ đệm KV rất cần thiết cho các mô hình ngôn ngữ quy mô lớn (LLM) như GPT-OSS và DeepSeek-R1 vì chúng lưu trữ dữ liệu chú ý cần thiết cho việc xử lý các lời nhắc nhập liệu. Tuy nhiên, khi các lời nhắc dài hơn, kích thước bộ nhớ đệm sẽ tăng lên, gây áp lực lên bộ nhớ GPU vốn đã hạn chế và tốn kém, đồng thời có khả năng tạo ra tình trạng tắc nghẽn.

Để giải quyết vấn đề này, bản cập nhật gần đây của NVIDIA Dynamo đã giới thiệu tính năng chuyển bộ đệm KV (KV cache offload), cho phép di chuyển bộ đệm từ bộ nhớ GPU sang một giải pháp lưu trữ tiết kiệm chi phí hơn. Quá trình này được hỗ trợ bởi NVIDIA NIXL, một thư viện truyền dữ liệu có độ trễ thấp, cho phép di chuyển bộ đệm KV nhanh chóng mà không làm gián đoạn quá trình suy luận. Việc chuyển bộ đệm không chỉ giảm nhu cầu bộ nhớ GPU mà còn cho phép kéo dài thời gian xử lý ngữ cảnh và tăng cường khả năng đồng thời của người dùng, cuối cùng dẫn đến giảm chi phí vận hành.

Lợi ích của việc chuyển tải bộ đệm KV rất đáng kể đối với các nhà cung cấp dịch vụ suy luận. Chuyển tải bộ đệm KV cho phép hỗ trợ các mô hình có ngữ cảnh mở rộng mà không làm giảm kích thước dấu nhắc, giảm nhu cầu về GPU bổ sung và tránh việc tính toán lại bộ đệm KV tốn kém. Điều này giúp giảm thời gian phản hồi và cải thiện trải nghiệm người dùng. Các nhà cung cấp có thể đạt được thông lượng cao hơn và chi phí thấp hơn cho mỗi mã thông báo, cải thiện khả năng mở rộng và hiệu quả của dịch vụ.

Trên thực tế, các nhà cung cấp lưu trữ đang tận dụng việc giảm tải bộ đệm KV để nâng cao dịch vụ của họ. Ví dụ, Vast đã chứng minh khả năng tích hợp hiệu suất cao với NVIDIA Dynamo, đạt được tốc độ thông lượng đáng kinh ngạc và đảm bảo lưu trữ không bị tắc nghẽn. Tương tự, các thử nghiệm trong phòng thí nghiệm của WEKA cho thấy Augmented Memory Grid của họ có thể truyền bộ đệm KV đến GPU với tốc độ gần bằng bộ nhớ, tối ưu hóa thông lượng token cho khối lượng công việc suy luận.

Nhìn chung, việc chuyển bộ đệm KV cung cấp giải pháp có khả năng mở rộng để quản lý các thách thức suy luận trong các ứng dụng Generative AI quy mô lớn, giúp giảm chi phí và cải thiện khả năng phản hồi, cho phép triển khai rộng rãi hơn và sử dụng hiệu quả hơn các mô hình AI.

Nguồn: Blog nhà phát triển NVIDIA

Chia sẻ bài viết này:

Tin tức mới nhất

NVIDIA báo cáo sự gia tăng mạnh mẽ trong việc ứng dụng AI trên toàn ngành.

0:00 11/3/26

Việc triển khai các mô hình ngôn ngữ lớn (LLM) trong các ứng dụng AI đã dẫn đến sự phát triển của các khung suy luận phân tán giúp tăng cường khả năng mở rộng và giảm latency.

đọc thêm

TII nâng cấp lõi NVIDIA Megatron với khả năng tích hợp Falcon.

0:00 11/3/26

Báo cáo "Tình trạng AI" mới nhất của NVIDIA tiết lộ sự bùng nổ trong việc ứng dụng AI trên nhiều ngành công nghiệp khác nhau,

đọc thêm

Microsoft công bố mở rộng Microsoft 365 Copilot.

0:00 11/3/26

NVIDIA Megatron Core đã trở thành một khung sườn quan trọng để huấn luyện các mô hình ngôn ngữ quy mô lớn

đọc thêm

NVIDIA AIConfigurator giúp đơn giản hóa việc triển khai mô hình ngôn ngữ quy mô lớn.

0:00 11/3/26

AIConfigurator đã nổi lên như một công cụ thiết yếu để tối ưu hóa việc triển khai các mô hình ngôn ngữ lớn (LLM)

đọc thêm

Chia sẻ bài viết này:

Danh mục

Trình nâng cao hình ảnh AI

Trình tạo mã AI

Quản lý tác vụ AI

Không có mã/mã thấp

Trình tạo thiết kế đồ họa AI

Trình tạo minh họa/nghệ thuật AI

Tất cả công cụ

Tin tức

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI sáng tạo

Hướng dẫn ứng dụng AI cơ bản

Hồ sơ công ty

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng trang web

Công ty điều hành

Hãy theo dõi chúng tôi

Ngôn ngữ

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Hãy theo dõi chúng tôi

Ngôn ngữ

Danh mục

Tất cả công cụ

Quản lý tác vụ AI

Trình tạo thiết kế đồ họa AI

Không có mã/mã thấp

Trình tạo mã AI

Trình nâng cao hình ảnh AI

Trình tạo minh họa/nghệ thuật AI

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI tạo ra

Hướng dẫn ứng dụng AI cơ bản

Tin tức

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng của trang web

Công ty điều hành

Hồ sơ công ty

Tin tức mới nhất

NVIDIA báo cáo sự gia tăng mạnh mẽ trong việc ứng dụng AI trên toàn ngành.

0:00 11/3/26

Việc triển khai các mô hình ngôn ngữ lớn (LLM) trong các ứng dụng AI đã dẫn đến sự phát triển của các khung suy luận phân tán giúp tăng cường khả năng mở rộng và giảm latency.

đọc thêm

TII nâng cấp lõi NVIDIA Megatron với khả năng tích hợp Falcon.

0:00 11/3/26

Báo cáo "Tình trạng AI" mới nhất của NVIDIA tiết lộ sự bùng nổ trong việc ứng dụng AI trên nhiều ngành công nghiệp khác nhau,

đọc thêm

Microsoft công bố mở rộng Microsoft 365 Copilot.

0:00 11/3/26

NVIDIA Megatron Core đã trở thành một khung sườn quan trọng để huấn luyện các mô hình ngôn ngữ quy mô lớn

đọc thêm

NVIDIA AIConfigurator giúp đơn giản hóa việc triển khai mô hình ngôn ngữ quy mô lớn.

0:00 11/3/26

AIConfigurator đã nổi lên như một công cụ thiết yếu để tối ưu hóa việc triển khai các mô hình ngôn ngữ lớn (LLM)

đọc thêm