Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

NVIDIA giới thiệu Helix Parallel Processing để Enhance AI
Generatived
0:00 10/7/25
Hệ thống Blackwell của NVIDIA giải quyết những thách thức của các ứng dụng AI hiện đại, đòi hỏi phải quản lý lượng dữ liệu khổng lồ và phản hồi nhanh chóng. Việc giới thiệu Helix Parallelism, được phát triển với sự hợp tác của Blackwell, là một bước tiến lớn trong công nghệ AI. Kỹ thuật mới này làm tăng đáng kể số lượng người dùng mà một tác nhân AI có thể xử lý đồng thời, cải thiện khả năng xử lý người dùng đồng thời lên đến 32 lần ở một latency định so với các kỹ thuật xử lý song song truyền thống.
Hiệu quả giải mã thời gian thực của các hệ thống AI bị cản trở bởi hai nút thắt cổ chai chính: truyền trực tuyến bộ đệm khóa-giá trị (KV) và tải trọng số mạng truyền thẳng (FFN) từ DRAM. Các chiến lược song song hóa truyền thống gặp khó khăn trong việc tối ưu hóa các nút thắt cổ chai này đồng thời. Tuy nhiên, Helix Parallelism giải quyết vấn đề này bằng cách sử dụng chiến lược phân mảnh lai tách các chiến lược song song hóa sự chú ý và FFN thành một đường ống thời gian. Cách tiếp cận này giải quyết hiệu quả các thách thức của việc truyền trực tuyến bộ đệm KV và tải trọng số FFN phát sinh khi giải mã các ngữ cảnh có hàng triệu mã thông báo.
Luồng thực thi của Helix Parallelism được thiết kế để tối đa hóa việc sử dụng GPU và giảm thiểu latency. Bằng cách phân mảnh bộ đệm KV và áp dụng Tensor Parallelism theo cách tránh trùng lặp trên các GPU, Helix đạt được tính toán chú ý hiệu quả. Chiến lược này cũng bao gồm Helix Overlapped Pipeline Batchwise (HOP-B), một kỹ thuật đường ống chi tiết, để giảm thêm latency giữa các mã thông báo bằng cách chồng chéo giao tiếp và tính toán. Trong giai đoạn FFN, cùng một GPU được sử dụng lại để thực thi các khối FFN mà không có thời gian nhàn rỗi, chứng minh tính linh hoạt và hiệu quả của chiến lược Helix.
Kết quả mô phỏng trên phần cứng Blackwell của NVIDIA cho thấy Helix Parallelism thiết lập chuẩn hiệu suất mới trong giải mã mô hình ngôn ngữ quy mô lớn (LLM) ngữ cảnh dài. Kỹ thuật này đạt được thông lượng cao ở latency thấp, cải thiện đáng kể tương tác của người dùng và khả năng mở rộng hệ thống. Khi NVIDIA tiếp tục tinh chỉnh tối ưu hóa này cho các khuôn khổ suy luận, Helix Parallelism là một sự phát triển đầy hứa hẹn để phục vụ các mô hình AI có thể mở rộng mà không ảnh hưởng đến hiệu suất thời gian thực.
Chia sẻ bài viết này:
Tin tức mới nhất
DryRun Security vạch trần những lỗ hổng của các tác nhân mã hóa AI
0:00 13/3/26
DryRun Security vừa công bố nghiên cứu mới cho thấy các tác nhân lập trình AI, mặc dù giúp tăng tốc quá trình phát triển phần mềm, lại có xu hướng tạo ra các lỗ hổng bảo mật.
Opinosis Analytics ra mắt công cụ đánh giá khả năng tích hợp AI.
0:00 13/3/26
West Jordan, UTAH – Để giải quyết những thách thức mà các tổ chức gặp phải trong việc khai thác trí tuệ nhân tạo, Opinosis Analytics đã giới thiệu một công cụ chẩn đoán mới.
Entity ra mắt bốn chip MTIA mới được tối ưu hóa bằng trí tuệ nhân tạo.
0:00 13/3/26
Công ty này đã công bố một kế hoạch đầy tham vọng nhằm phát triển và triển khai bốn thế hệ chip silicon tùy chỉnh mới trong vòng hai năm tới
Copyright © 2024 Generatived - All right Reserved.
Chia sẻ bài viết này:
Chia sẻ bài viết này:
Danh mục
Tin tức
AI và luật/hệ thống/kinh tế/xã hội
Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.
Tin tức mới nhất
DryRun Security vạch trần những lỗ hổng của các tác nhân mã hóa AI
0:00 13/3/26
DryRun Security vừa công bố nghiên cứu mới cho thấy các tác nhân lập trình AI, mặc dù giúp tăng tốc quá trình phát triển phần mềm, lại có xu hướng tạo ra các lỗ hổng bảo mật.
Opinosis Analytics ra mắt công cụ đánh giá khả năng tích hợp AI.
0:00 13/3/26
West Jordan, UTAH – Để giải quyết những thách thức mà các tổ chức gặp phải trong việc khai thác trí tuệ nhân tạo, Opinosis Analytics đã giới thiệu một công cụ chẩn đoán mới.
Entity ra mắt bốn chip MTIA mới được tối ưu hóa bằng trí tuệ nhân tạo.
0:00 13/3/26
Công ty này đã công bố một kế hoạch đầy tham vọng nhằm phát triển và triển khai bốn thế hệ chip silicon tùy chỉnh mới trong vòng hai năm tới



%20(1).webp)


