Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

NVIDIA đơn giản hóa việc lượng tử hóa AI cho các nhà phát triển mới

Generatived

0:00 26/11/25

NVIDIA đã công bố các công cụ giúp đơn giản hóa quy trình lượng tử hóa cho các nhà phát triển AI, đặc biệt là những người mới vào nghề. Lượng tử hóa là một kỹ thuật giảm độ chính xác của các tham số mô hình, cho phép các mô hình AI phức tạp chạy trên phần cứng hạn chế tài nguyên. Các công cụ TensorRT và Model Optimizer của NVIDIA được thiết kế để cải thiện hiệu quả trong khi vẫn duy trì độ chính xác của mô hình.

Lượng tử hóa rất hữu ích khi triển khai các mô hình học sâu trong môi trường hạn chế tài nguyên. Việc giảm độ chính xác của các tham số mô hình (ví dụ: từ độ chính xác FP32 xuống FP8) giải quyết các vấn đề như sử dụng bộ nhớ, tốc độ suy luận và mức tiêu thụ điện năng. Việc giảm độ chính xác này làm giảm kích thước mô hình và yêu cầu tính toán, do đó cải thiện tốc độ tính toán và giảm mức tiêu thụ điện năng. Tuy nhiên, việc cân bằng giữa độ chính xác và hiệu quả của mô hình là rất quan trọng, và điều này thay đổi tùy thuộc vào trường hợp sử dụng.

Quy trình lượng tử hóa liên quan đến nhiều loại dữ liệu khác nhau, chẳng hạn như FP32, FP16, BF16 và FP8, ảnh hưởng đến tài nguyên tính toán cần thiết cho mô hình. Các định dạng dấu phẩy động này được biểu diễn bằng dấu, số mũ và phần thập phân/phân số, và số bit được phân bổ cho mỗi phần tử thay đổi tùy thuộc vào kiểu dữ liệu. Lượng tử hóa có thể được áp dụng cho trọng số mô hình, kích hoạt và bộ đệm KV. Bộ đệm KV dành riêng cho mô hình giải mã.

Các phương pháp lượng tử hóa của NVIDIA bao gồm cả phương pháp affine/bất đối xứng và đối xứng, đặc biệt chú trọng đến phương pháp đối xứng do tính đơn giản và phù hợp với các tiêu chuẩn công nghiệp. Thuật toán AbsMax thường được sử dụng để xác định hệ số tỷ lệ lượng tử hóa, yếu tố rất quan trọng đối với quá trình lượng tử hóa. Hơn nữa, độ chi tiết của lượng tử hóa được kiểm soát bởi các chiến lược trên mỗi tensor, trên mỗi kênh và trên mỗi khối, mỗi chiến lược cung cấp các mức độ kiểm soát khác nhau đối với các tham số lượng tử hóa.

Các thuật toán lượng tử hóa tiên tiến, chẳng hạn như Lượng tử hóa Trọng số Nhận biết Kích hoạt (AWQ), Lượng tử hóa Biến áp Được huấn luyện Trước Sinh (GPTQ) và SmoothQuant, đã được phát triển để cải thiện hiệu quả hơn nữa đồng thời giảm thiểu tổn thất độ chính xác. Các kỹ thuật này tập trung vào việc bảo vệ các kênh trọng số quan trọng, nén các mô hình với tác động tối thiểu đến hiệu suất và làm mịn các giá trị ngoại lệ kích hoạt.

Bài viết này cũng thảo luận về lượng tử hóa sau đào tạo (PTQ). Đây là một kỹ thuật bổ sung một người quan sát vào các kích hoạt để xác định hệ số tỷ lệ trong quá trình suy luận mô hình bằng cách sử dụng dữ liệu đại diện. PTQ có thể chỉ bao gồm trọng số hoặc cả trọng số và kích hoạt, với lượng tử hóa tĩnh và động là các phương pháp chính được sử dụng. Đào tạo Nhận thức Lượng tử hóa (QAT) là một kỹ thuật khác giúp giảm thiểu sự suy giảm chất lượng bằng cách tích hợp các tác động của lượng tử hóa vào quá trình đào tạo.

Tóm lại, bài viết trên blog này nhằm mục đích cung cấp hiểu biết toàn diện về lượng tử hóa, các kỹ thuật của nó và ứng dụng của nó trong việc triển khai mô hình AI, đặc biệt là các mô hình ngôn ngữ quy mô lớn (LLM). Chúng tôi khuyến khích bạn khám phá thêm về lượng tử hóa thông qua các tài nguyên bổ sung do NVIDIA cung cấp.

Nguồn: Blog nhà phát triển NVIDIA

Chia sẻ bài viết này:

Tin tức mới nhất

Viện nghiên cứu Capgemini tiết lộ sự phát triển của AI trong lĩnh vực tài chính

0:00 14/11/25

Các tổ chức tài chính đang ngày càng triển khai nhiều tác nhân AI để cải thiện dịch vụ khách hàng và chống gian lận.

đọc thêm

Datavault AI thông báo về sự gia tăng đột biến trong các giao dịch mã hóa tài sản

0:00 14/11/25

Datavault AI Inc. báo cáo rằng sự quan tâm toàn cầu ngày càng tăng đối với việc mã hóa tài sản thực tế (RWA).

đọc thêm

Egnyte công bố những cải tiến về hiệu quả và bảo mật

0:00 14/11/25

Egnyte đã công bố một loạt cải tiến sản phẩm nhằm mục đích nâng cao hiệu quả của nhóm, đẩy nhanh quá trình khám phá thông tin chi tiết và tăng cường bảo mật dữ liệu trong toàn bộ vòng đời nội dung.

đọc thêm

Nokod Security phát hành nền tảng bảo mật Adaptive Agent

0:00 14/11/25

Nokod Security vừa công bố sáng kiến mới nhất của mình, Adaptive Agent Security, nhằm mục đích tăng cường bảo mật cho nền tảng phát triển ứng dụng công dân hỗ trợ AI.

đọc thêm

Chia sẻ bài viết này:

Danh mục

Trình nâng cao hình ảnh AI

Trình tạo mã AI

Quản lý tác vụ AI

Không có mã/mã thấp

Trình tạo thiết kế đồ họa AI

Trình tạo minh họa/nghệ thuật AI

Tất cả công cụ

Tin tức

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI sáng tạo

Hướng dẫn ứng dụng AI cơ bản

Hồ sơ công ty

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng trang web

Công ty điều hành

Hãy theo dõi chúng tôi

Ngôn ngữ

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Hãy theo dõi chúng tôi

Ngôn ngữ

Danh mục

Tất cả công cụ

Quản lý tác vụ AI

Trình tạo thiết kế đồ họa AI

Không có mã/mã thấp

Trình tạo mã AI

Trình nâng cao hình ảnh AI

Trình tạo minh họa/nghệ thuật AI

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI tạo ra

Hướng dẫn ứng dụng AI cơ bản

Tin tức

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng của trang web

Công ty điều hành

Hồ sơ công ty

Tin tức mới nhất

Viện nghiên cứu Capgemini tiết lộ sự phát triển của AI trong lĩnh vực tài chính

0:00 14/11/25

Các tổ chức tài chính đang ngày càng triển khai nhiều tác nhân AI để cải thiện dịch vụ khách hàng và chống gian lận.

đọc thêm

Datavault AI thông báo về sự gia tăng đột biến trong các giao dịch mã hóa tài sản

0:00 14/11/25

Datavault AI Inc. báo cáo rằng sự quan tâm toàn cầu ngày càng tăng đối với việc mã hóa tài sản thực tế (RWA).

đọc thêm

Egnyte công bố những cải tiến về hiệu quả và bảo mật

0:00 14/11/25

Egnyte đã công bố một loạt cải tiến sản phẩm nhằm mục đích nâng cao hiệu quả của nhóm, đẩy nhanh quá trình khám phá thông tin chi tiết và tăng cường bảo mật dữ liệu trong toàn bộ vòng đời nội dung.

đọc thêm

Nokod Security phát hành nền tảng bảo mật Adaptive Agent

0:00 14/11/25

Nokod Security vừa công bố sáng kiến mới nhất của mình, Adaptive Agent Security, nhằm mục đích tăng cường bảo mật cho nền tảng phát triển ứng dụng công dân hỗ trợ AI.

đọc thêm