Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

MambaTech công bố bước đột phá trong việc nâng cao hiệu quả của LM.
Generatived
0:00 14/1/26
Nghiên cứu gần đây về phát triển mô hình ngôn ngữ (LM) đã giới thiệu một phương pháp mới để giải quyết những hạn chế của việc xử lý ngữ cảnh dài. Không giống như các mô hình Transformer truyền thống, vốn gặp khó khăn về hiệu quả khi xử lý ngữ cảnh rộng lớn, phương pháp mới này, được gọi là học từ đầu đến cuối trong quá trình kiểm thử (TTT-E2E), nhằm mục đích cải thiện cả độ chính xác và tốc độ của LM. Bằng cách nén ngữ cảnh vào trọng số của mô hình thông qua dự đoán từ tiếp theo, TTT-E2E đã cho thấy kết quả đầy hứa hẹn trong việc duy trì hiệu suất ngay cả trong ngữ cảnh dài, như đã được chứng minh trong nghiên cứu gần đây.
Kết quả nghiên cứu, được thể hiện trong Hình 1, cho thấy rằng một Transformer với cơ chế chú ý đầy đủ thể hiện hiệu suất độ chính xác xuất sắc nhưng lại gặp phải hạn chế về latency khi độ dài ngữ cảnh tăng lên. Trong khi đó, các mạng nơron hồi quy (RNN) như Mamba 2 và Gated DeltaNet lại có latency nhưng không hiệu quả bằng về độ chính xác. TTT-E2E đã nổi lên như phương pháp duy nhất thể hiện hiệu suất vượt trội ở cả hai lĩnh vực, mang đến một giải pháp tiềm năng cho thách thức lâu dài về xử lý ngữ cảnh dài trong mô hình ngôn ngữ.
TTT-E2E có tiềm năng trở thành một bước đột phá trong lĩnh vực trí tuệ nhân tạo, vì nó có thể xử lý nhiều ngữ cảnh khác nhau mà không làm tăng đáng kể latency. Phương pháp này thể hiện hiệu suất ổn định trên nhiều độ dài ngữ cảnh khác nhau, cho thấy tiềm năng của nó trong việc mở đường cho các mô hình ngôn ngữ (LM) hiệu quả hơn trong tương lai gần. Nhóm nghiên cứu đã công khai bài báo và mã nguồn của họ, mời cộng đồng rộng lớn hơn cùng khám phá và phát triển dựa trên những phát hiện này.
Nghiên cứu này cũng đi sâu vào sự khác biệt giữa trí nhớ con người và trí nhớ mô hình ngôn ngữ (LM), làm nổi bật khả năng của con người trong việc nén một lượng lớn kinh nghiệm thành kiến thức trực quan. Những phát hiện này đã định hướng cho sự phát triển của TTT-E2E, mô phỏng khả năng nén thông tin giống con người để cải thiện hiệu suất của LM. Thiết kế của phương pháp này, kết hợp siêu học tập trong giai đoạn huấn luyện, đặt nền tảng cho LM nắm bắt và sử dụng thông tin dự đoán tốt hơn trong các ngữ cảnh dài. Mặc dù vẫn còn những thách thức cần vượt qua, chẳng hạn như tối ưu hóa giai đoạn siêu học tập, nhóm nghiên cứu vẫn lạc quan về tương lai của LM và khuyến khích sự hợp tác để tiếp tục phát triển công nghệ đầy hứa hẹn này.
Chia sẻ bài viết này:
Tin tức mới nhất
NVIDIA công bố TensorRT Edge-LLM để tăng cường trí tuệ nhân tạo (AI).
0:00 14/1/26
NVIDIA đã công bố TensorRT Edge-LLM, một khung phần mềm mã nguồn mở C++ mới được thiết kế để cải thiện hiệu suất của các mô hình ngôn ngữ quy mô lớn (LLM)
DeepSeek báo cáo sự gia tăng nhanh chóng trong việc áp dụng Generative AI trên toàn cầu.
0:00 14/1/26
Theo số liệu thống kê mới nhất, việc ứng dụng trí tuệ nhân tạo (AI) trên toàn cầu đang tăng đều đặn, dự kiến sẽ tăng 1,2 điểm phần trăm vào nửa cuối năm 2025.

%20(1).webp)
%20(1).webp)
%20(1).webp)