top of page

Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

logo.png

NVIDIA công bố KV Cache Offload cho LLM

Generatived

0:00 22/9/25

Khi các mô hình AI trở nên phức tạp hơn, việc quản lý bộ nhớ đệm khóa-giá trị (KV) trong quá trình suy luận ngày càng trở nên quan trọng. Bộ nhớ đệm KV rất cần thiết cho các mô hình ngôn ngữ quy mô lớn (LLM) như GPT-OSS và DeepSeek-R1 vì chúng lưu trữ dữ liệu chú ý cần thiết cho việc xử lý các lời nhắc nhập liệu. Tuy nhiên, khi các lời nhắc dài hơn, kích thước bộ nhớ đệm sẽ tăng lên, gây áp lực lên bộ nhớ GPU vốn đã hạn chế và tốn kém, đồng thời có khả năng tạo ra tình trạng tắc nghẽn.

Để giải quyết vấn đề này, bản cập nhật gần đây của NVIDIA Dynamo đã giới thiệu tính năng chuyển bộ đệm KV (KV cache offload), cho phép di chuyển bộ đệm từ bộ nhớ GPU sang một giải pháp lưu trữ tiết kiệm chi phí hơn. Quá trình này được hỗ trợ bởi NVIDIA NIXL, một thư viện truyền dữ liệu có độ trễ thấp, cho phép di chuyển bộ đệm KV nhanh chóng mà không làm gián đoạn quá trình suy luận. Việc chuyển bộ đệm không chỉ giảm nhu cầu bộ nhớ GPU mà còn cho phép kéo dài thời gian xử lý ngữ cảnh và tăng cường khả năng đồng thời của người dùng, cuối cùng dẫn đến giảm chi phí vận hành.

Lợi ích của việc chuyển tải bộ đệm KV rất đáng kể đối với các nhà cung cấp dịch vụ suy luận. Chuyển tải bộ đệm KV cho phép hỗ trợ các mô hình có ngữ cảnh mở rộng mà không làm giảm kích thước dấu nhắc, giảm nhu cầu về GPU bổ sung và tránh việc tính toán lại bộ đệm KV tốn kém. Điều này giúp giảm thời gian phản hồi và cải thiện trải nghiệm người dùng. Các nhà cung cấp có thể đạt được thông lượng cao hơn và chi phí thấp hơn cho mỗi mã thông báo, cải thiện khả năng mở rộng và hiệu quả của dịch vụ.

Trên thực tế, các nhà cung cấp lưu trữ đang tận dụng việc giảm tải bộ đệm KV để nâng cao dịch vụ của họ. Ví dụ, Vast đã chứng minh khả năng tích hợp hiệu suất cao với NVIDIA Dynamo, đạt được tốc độ thông lượng đáng kinh ngạc và đảm bảo lưu trữ không bị tắc nghẽn. Tương tự, các thử nghiệm trong phòng thí nghiệm của WEKA cho thấy Augmented Memory Grid của họ có thể truyền bộ đệm KV đến GPU với tốc độ gần bằng bộ nhớ, tối ưu hóa thông lượng token cho khối lượng công việc suy luận.

Nhìn chung, việc chuyển bộ đệm KV cung cấp giải pháp có khả năng mở rộng để quản lý các thách thức suy luận trong các ứng dụng Generative AI quy mô lớn, giúp giảm chi phí và cải thiện khả năng phản hồi, cho phép triển khai rộng rãi hơn và sử dụng hiệu quả hơn các mô hình AI.

Chia sẻ bài viết này:

Tin tức mới nhất
NVIDIA báo cáo sự gia tăng mạnh mẽ trong việc ứng dụng AI trên toàn ngành.

NVIDIA báo cáo sự gia tăng mạnh mẽ trong việc ứng dụng AI trên toàn ngành.

0:00 11/3/26

Việc triển khai các mô hình ngôn ngữ lớn (LLM) trong các ứng dụng AI đã dẫn đến sự phát triển của các khung suy luận phân tán giúp tăng cường khả năng mở rộng và giảm latency.

TII nâng cấp lõi NVIDIA Megatron với khả năng tích hợp Falcon.

TII nâng cấp lõi NVIDIA Megatron với khả năng tích hợp Falcon.

0:00 11/3/26

Báo cáo "Tình trạng AI" mới nhất của NVIDIA tiết lộ sự bùng nổ trong việc ứng dụng AI trên nhiều ngành công nghiệp khác nhau,

Microsoft công bố mở rộng Microsoft 365 Copilot.

Microsoft công bố mở rộng Microsoft 365 Copilot.

0:00 11/3/26

NVIDIA Megatron Core đã trở thành một khung sườn quan trọng để huấn luyện các mô hình ngôn ngữ quy mô lớn

NVIDIA AIConfigurator giúp đơn giản hóa việc triển khai mô hình ngôn ngữ quy mô lớn.

NVIDIA AIConfigurator giúp đơn giản hóa việc triển khai mô hình ngôn ngữ quy mô lớn.

0:00 11/3/26

AIConfigurator đã nổi lên như một công cụ thiết yếu để tối ưu hóa việc triển khai các mô hình ngôn ngữ lớn (LLM)

Copyright © 2024 Generatived - All right Reserved.

Chia sẻ bài viết này:

Chia sẻ bài viết này:

Generatived AI Logo

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

  • Facebook
  • X

Hãy theo dõi chúng tôi

Ngôn ngữ

Tin tức mới nhất
NVIDIA báo cáo sự gia tăng mạnh mẽ trong việc ứng dụng AI trên toàn ngành.

NVIDIA báo cáo sự gia tăng mạnh mẽ trong việc ứng dụng AI trên toàn ngành.

0:00 11/3/26

Việc triển khai các mô hình ngôn ngữ lớn (LLM) trong các ứng dụng AI đã dẫn đến sự phát triển của các khung suy luận phân tán giúp tăng cường khả năng mở rộng và giảm latency.

TII nâng cấp lõi NVIDIA Megatron với khả năng tích hợp Falcon.

TII nâng cấp lõi NVIDIA Megatron với khả năng tích hợp Falcon.

0:00 11/3/26

Báo cáo "Tình trạng AI" mới nhất của NVIDIA tiết lộ sự bùng nổ trong việc ứng dụng AI trên nhiều ngành công nghiệp khác nhau,

Microsoft công bố mở rộng Microsoft 365 Copilot.

Microsoft công bố mở rộng Microsoft 365 Copilot.

0:00 11/3/26

NVIDIA Megatron Core đã trở thành một khung sườn quan trọng để huấn luyện các mô hình ngôn ngữ quy mô lớn

NVIDIA AIConfigurator giúp đơn giản hóa việc triển khai mô hình ngôn ngữ quy mô lớn.

NVIDIA AIConfigurator giúp đơn giản hóa việc triển khai mô hình ngôn ngữ quy mô lớn.

0:00 11/3/26

AIConfigurator đã nổi lên như một công cụ thiết yếu để tối ưu hóa việc triển khai các mô hình ngôn ngữ lớn (LLM)

bottom of page