Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

NVIDIA Research Đài Loan công bố phương pháp nén mô hình EoRA
Generatived
0:00 11/6/25
NVIDIA Research Đài Loan đã trình bày một phương pháp tiếp cận mới tập trung vào việc sửa lỗi thường gặp trong quá trình nén mô hình. Phương pháp này, được gọi là EoRA, có hiệu quả làm giảm mất độ chính xác xảy ra trong quá trình nén mô hình bằng cách thêm một đường dẫn dư bậc thấp sử dụng phép xấp xỉ bậc thấp không gian riêng. Phương pháp này đặc biệt hiệu quả đối với các mô hình ngôn ngữ lớn và đạt được tối ưu hóa không cần tinh chỉnh có thể được thực hiện nhanh chóng với dữ liệu hiệu chuẩn tối thiểu.
EoRA vượt trội hơn các phương pháp trước đây, đặc biệt là khi xử lý các mô hình đã trải qua quá trình nén mạnh như cắt tỉa và lượng tử hóa. Trong các thử nghiệm liên quan đến các tác vụ tạo ngôn ngữ và suy luận, EoRA cho thấy những cải tiến đáng kể. Ví dụ, trong thử nghiệm ARC-Challenge với mô hình Llama3-8B được cắt tỉa 2:4, phương pháp này đã đạt được sự cải thiện hơn 4,5%. Phương pháp này vẫn mạnh mẽ ngay cả khi lượng tử hóa 3/4 bit, giảm thiểu mất độ chính xác và chứng minh tính thực tiễn của nó trong nhiều ứng dụng khác nhau.
Quá trình đằng sau EoRA là chiếu các lỗi nén vào không gian riêng của các kích hoạt đầu vào của mỗi lớp và áp dụng phân tích giá trị kỳ dị trong không gian này, cho phép xử lý các lỗi quan trọng nhất chính xác hơn và tận dụng tối đa sức mạnh biểu đạt cấp thấp hạn chế của mô hình. Toàn bộ quá trình tối ưu hóa chỉ mất vài phút, khiến EoRA trở thành giải pháp tiết kiệm thời gian để cải thiện các mô hình nén.
EoRA đã được tích hợp vào thư viện GPTQModel nguồn mở, giúp việc áp dụng dễ dàng hơn và cho phép người dùng dễ dàng cải thiện hiệu suất của các mô hình lượng tử hóa. Sự tiến bộ này dự kiến sẽ hỗ trợ triển khai hiệu quả các mạng nơ-ron quy mô lớn trong nhiều lĩnh vực, chẳng hạn như thị giác máy tính và Generative AI, đồng thời duy trì sự cân bằng giữa độ chính xác của mô hình và hiệu quả tính toán. Để biết thêm thông tin về EoRA và các ứng dụng của nó, vui lòng xem các tài nguyên do NVIDIA cung cấp.
Chia sẻ bài viết này:
Tin tức mới nhất
Evri nâng cao dịch vụ chuyển phát bưu kiện với công nghệ AI Amazon.
0:00 18/3/26
Tập đoàn Evri chuẩn bị nâng cao dịch vụ giao nhận bưu kiện bằng cách tích hợp công nghệ trí tuệ nhân tạo (AI) từ Amazon Web Services.
NVIDIA ra mắt Dynamo 1.0 để nâng cao hiệu năng AI.
0:00 18/3/26
NVIDIA vừa ra mắt Dynamo 1.0, một khung AI mới được thiết kế để nâng cao hiệu suất của các mô hình AI tạo sinh và suy luận trong môi trường phân tán.
NVIDIA ra mắt Groq 3 LPX dành cho hệ thống AI tác nhân.
0:00 18/3/26
NVIDIA vừa ra mắt Groq 3 LPX, một bộ tăng tốc suy luận quy mô rack mới được thiết kế riêng cho nhu cầu của các hệ thống tác nhân.
Copyright © 2024 Generatived - All right Reserved.
Chia sẻ bài viết này:
Chia sẻ bài viết này:
Danh mục
Tin tức
AI và luật/hệ thống/kinh tế/xã hội
Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.
Tin tức mới nhất
Evri nâng cao dịch vụ chuyển phát bưu kiện với công nghệ AI Amazon.
0:00 18/3/26
Tập đoàn Evri chuẩn bị nâng cao dịch vụ giao nhận bưu kiện bằng cách tích hợp công nghệ trí tuệ nhân tạo (AI) từ Amazon Web Services.
NVIDIA ra mắt Dynamo 1.0 để nâng cao hiệu năng AI.
0:00 18/3/26
NVIDIA vừa ra mắt Dynamo 1.0, một khung AI mới được thiết kế để nâng cao hiệu suất của các mô hình AI tạo sinh và suy luận trong môi trường phân tán.
NVIDIA ra mắt Groq 3 LPX dành cho hệ thống AI tác nhân.
0:00 18/3/26
NVIDIA vừa ra mắt Groq 3 LPX, một bộ tăng tốc suy luận quy mô rack mới được thiết kế riêng cho nhu cầu của các hệ thống tác nhân.



%20(1).webp)


