Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

NVIDIA tăng tốc quá trình suy luận LLM với Skip Softmax.

Generatived

0:00 18/12/25

Các kỹ sư học máy làm việc với các mô hình ngôn ngữ lớn (LLM) thường phải đối mặt với một thách thức lớn: khi độ dài ngữ cảnh của mô hình tăng lên, chi phí tính toán liên quan đến cơ chế chú ý tăng vọt. Để giải quyết vấn đề này, một kỹ thuật mới gọi là Skip Softmax được giới thiệu. Kỹ thuật này tăng tốc thời gian suy luận mà không cần huấn luyện lại. Tương thích với NVIDIA TensorRT-LLM, kỹ thuật này đạt được tốc độ suy luận nhanh hơn tới 1,4 lần cả về thời gian đến token đầu tiên và thời gian cho mỗi token đầu ra.

Thuật toán Skip Softmax hoạt động bằng cách khai thác tính chất thưa thớt vốn có của các điểm quan tâm trong mô hình tuyến tính hỗn hợp (LLM) và tự động cắt tỉa các khối quan tâm. Bằng cách tính toán logit lớn nhất của một khối và so sánh nó với giá trị lớn nhất toàn cục, chúng ta có thể bỏ qua các khối có đóng góp không đáng kể vào kết quả cuối cùng. Quá trình này không chỉ tiết kiệm tài nguyên tính toán mà còn giảm nhu cầu tải dữ liệu từ bộ nhớ, cho phép sử dụng phần cứng hiệu quả hơn.

Lợi ích của Skip Softmax nằm ở khả năng tương thích với các mô hình được huấn luyện trước hiện có và khả năng tối ưu hóa cho các lõi tensor và hệ thống phân cấp bộ nhớ của GPU NVIDIA Hopper và Blackwell. Khi được sử dụng kết hợp với các kỹ thuật tối ưu hóa khác, chẳng hạn như XAttention, nó có thể cải thiện hiệu suất hơn nữa mà không làm giảm độ chính xác. Kỹ thuật này đặc biệt hiệu quả trong các trường hợp có độ dài ngữ cảnh lớn, giúp giảm đáng kể gánh nặng tính toán trong cả giai đoạn điền trước và giải mã của suy luận LLM.

Để triển khai Skip Softmax, bạn có thể sử dụng thiết lập chú ý thưa (sparse attention) của API LLM trong NVIDIA TensorRT-LLM. Kỹ thuật này được hỗ trợ trên các GPU trung tâm dữ liệu của NVIDIA và có thể được kích hoạt bằng một thay đổi cấu hình đơn giản. Để biết thêm thông tin, vui lòng tham khảo các tài liệu như BLASST: Dynamic Blocked Attention Sparsity via Softmax Thresholding và tài liệu TensorRT-LLM. Các tài liệu này cung cấp thông tin chi tiết về kỹ thuật này và các ứng dụng của nó.

Nguồn: Blog nhà phát triển NVIDIA

Chia sẻ bài viết này:

Tin tức mới nhất

Dịch vụ quản lý AI tích hợp của DORAVERSE JAPAN chính thức ra mắt.

0:00 19/12/25

DORAVERSE JAPAN (Taito-ku, Tokyo) đã ra mắt "Doraverse", một dịch vụ quản lý tập trung việc sử dụng trí tuệ nhân tạo (AI) trong doanh nghiệp.

đọc thêm

Phần mềm lắp ráp NeosAI giúp nâng cao hiệu quả làm việc của đội ngũ pháp lý.

0:00 19/12/25

Công ty Assembly Software thông báo rằng việc áp dụng và sử dụng công nghệ pháp lý dựa trên trí tuệ nhân tạo (AI) của họ, NeosAI, sẽ tăng đáng kể đến năm 2025.

đọc thêm

Atos dẫn đầu sự tăng trưởng trong lĩnh vực trí tuệ nhân tạo và tích hợp dữ liệu tại Tây Ban Nha.

0:00 19/12/25

Theo báo cáo của công ty phân tích thị trường nổi tiếng Penteo, Atos đã củng cố vị thế là một trong những công ty hàng đầu trong lĩnh vực dữ liệu và trí tuệ nhân tạo (AI) tại Tây Ban Nha.

đọc thêm

Fortinet khai trương trung tâm dữ liệu AI bảo mật tại MPS.

0:00 19/12/25

Fortinet, một công ty hàng đầu thế giới về an ninh mạng, đã thông báo hợp tác với Arista Networks để triển khai giải pháp Trung tâm Dữ liệu AI An toàn tại Monolithic Power Systems

đọc thêm

Chia sẻ bài viết này:

Danh mục

Trình nâng cao hình ảnh AI

Trình tạo mã AI

Quản lý tác vụ AI

Không có mã/mã thấp

Trình tạo thiết kế đồ họa AI

Trình tạo minh họa/nghệ thuật AI

Tất cả công cụ

Tin tức

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI sáng tạo

Hướng dẫn ứng dụng AI cơ bản

Hồ sơ công ty

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng trang web

Công ty điều hành

Hãy theo dõi chúng tôi

Ngôn ngữ

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Hãy theo dõi chúng tôi

Ngôn ngữ

Danh mục

Tất cả công cụ

Quản lý tác vụ AI

Trình tạo thiết kế đồ họa AI

Không có mã/mã thấp

Trình tạo mã AI

Trình nâng cao hình ảnh AI

Trình tạo minh họa/nghệ thuật AI

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI tạo ra

Hướng dẫn ứng dụng AI cơ bản

Tin tức

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng của trang web

Công ty điều hành

Hồ sơ công ty

Tin tức mới nhất

Dịch vụ quản lý AI tích hợp của DORAVERSE JAPAN chính thức ra mắt.

0:00 19/12/25

DORAVERSE JAPAN (Taito-ku, Tokyo) đã ra mắt "Doraverse", một dịch vụ quản lý tập trung việc sử dụng trí tuệ nhân tạo (AI) trong doanh nghiệp.

đọc thêm

Phần mềm lắp ráp NeosAI giúp nâng cao hiệu quả làm việc của đội ngũ pháp lý.

0:00 19/12/25

Công ty Assembly Software thông báo rằng việc áp dụng và sử dụng công nghệ pháp lý dựa trên trí tuệ nhân tạo (AI) của họ, NeosAI, sẽ tăng đáng kể đến năm 2025.

đọc thêm

Atos dẫn đầu sự tăng trưởng trong lĩnh vực trí tuệ nhân tạo và tích hợp dữ liệu tại Tây Ban Nha.

0:00 19/12/25

Theo báo cáo của công ty phân tích thị trường nổi tiếng Penteo, Atos đã củng cố vị thế là một trong những công ty hàng đầu trong lĩnh vực dữ liệu và trí tuệ nhân tạo (AI) tại Tây Ban Nha.

đọc thêm

Fortinet khai trương trung tâm dữ liệu AI bảo mật tại MPS.

0:00 19/12/25

Fortinet, một công ty hàng đầu thế giới về an ninh mạng, đã thông báo hợp tác với Arista Networks để triển khai giải pháp Trung tâm Dữ liệu AI An toàn tại Monolithic Power Systems

đọc thêm