Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

NVIDIA giới thiệu Helix Parallel Processing để Enhance AI
Generatived
0:00 10/7/25
Hệ thống Blackwell của NVIDIA giải quyết những thách thức của các ứng dụng AI hiện đại, đòi hỏi phải quản lý lượng dữ liệu khổng lồ và phản hồi nhanh chóng. Việc giới thiệu Helix Parallelism, được phát triển với sự hợp tác của Blackwell, là một bước tiến lớn trong công nghệ AI. Kỹ thuật mới này làm tăng đáng kể số lượng người dùng mà một tác nhân AI có thể xử lý đồng thời, cải thiện khả năng xử lý người dùng đồng thời lên đến 32 lần ở một latency định so với các kỹ thuật xử lý song song truyền thống.
Hiệu quả giải mã thời gian thực của các hệ thống AI bị cản trở bởi hai nút thắt cổ chai chính: truyền trực tuyến bộ đệm khóa-giá trị (KV) và tải trọng số mạng truyền thẳng (FFN) từ DRAM. Các chiến lược song song hóa truyền thống gặp khó khăn trong việc tối ưu hóa các nút thắt cổ chai này đồng thời. Tuy nhiên, Helix Parallelism giải quyết vấn đề này bằng cách sử dụng chiến lược phân mảnh lai tách các chiến lược song song hóa sự chú ý và FFN thành một đường ống thời gian. Cách tiếp cận này giải quyết hiệu quả các thách thức của việc truyền trực tuyến bộ đệm KV và tải trọng số FFN phát sinh khi giải mã các ngữ cảnh có hàng triệu mã thông báo.
Luồng thực thi của Helix Parallelism được thiết kế để tối đa hóa việc sử dụng GPU và giảm thiểu latency. Bằng cách phân mảnh bộ đệm KV và áp dụng Tensor Parallelism theo cách tránh trùng lặp trên các GPU, Helix đạt được tính toán chú ý hiệu quả. Chiến lược này cũng bao gồm Helix Overlapped Pipeline Batchwise (HOP-B), một kỹ thuật đường ống chi tiết, để giảm thêm latency giữa các mã thông báo bằng cách chồng chéo giao tiếp và tính toán. Trong giai đoạn FFN, cùng một GPU được sử dụng lại để thực thi các khối FFN mà không có thời gian nhàn rỗi, chứng minh tính linh hoạt và hiệu quả của chiến lược Helix.
Kết quả mô phỏng trên phần cứng Blackwell của NVIDIA cho thấy Helix Parallelism thiết lập chuẩn hiệu suất mới trong giải mã mô hình ngôn ngữ quy mô lớn (LLM) ngữ cảnh dài. Kỹ thuật này đạt được thông lượng cao ở latency thấp, cải thiện đáng kể tương tác của người dùng và khả năng mở rộng hệ thống. Khi NVIDIA tiếp tục tinh chỉnh tối ưu hóa này cho các khuôn khổ suy luận, Helix Parallelism là một sự phát triển đầy hứa hẹn để phục vụ các mô hình AI có thể mở rộng mà không ảnh hưởng đến hiệu suất thời gian thực.
Chia sẻ bài viết này:
Tin tức mới nhất
Nemotron ra mắt AI nâng cao dành cho hệ thống đa tác nhân.
0:00 13/3/26
Một mô hình AI mới, Nemotron 3 Super, đã được giới thiệu để tăng cường khả năng của các hệ thống đa tác tử trong các ứng dụng phức tạp như phát triển phần mềm và an ninh mạng.
Wayfair tăng cường hỗ trợ danh mục sản phẩm và nhà cung cấp với OpenAI.
0:00 13/3/26
Wayfair đã tích hợp thành công các mô hình OpenAI vào hệ thống nội bộ của mình, tăng cường hỗ trợ nhà cung cấp và quản lý danh mục sản phẩm.
ChatGPT tăng cường bảo mật AI chống lại các cuộc tấn công chèn mã độc vào lời nhắc (Prompt Injection).
0:00 13/3/26
Các tác nhân AI ngày càng trở nên thành thạo hơn trong việc duyệt web, truy xuất thông tin và hành động tự động, điều này, mặc dù có lợi
Copyright © 2024 Generatived - All right Reserved.
Chia sẻ bài viết này:
Chia sẻ bài viết này:
Danh mục
Tin tức
AI và luật/hệ thống/kinh tế/xã hội
Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.
Tin tức mới nhất
Nemotron ra mắt AI nâng cao dành cho hệ thống đa tác nhân.
0:00 13/3/26
Một mô hình AI mới, Nemotron 3 Super, đã được giới thiệu để tăng cường khả năng của các hệ thống đa tác tử trong các ứng dụng phức tạp như phát triển phần mềm và an ninh mạng.
Wayfair tăng cường hỗ trợ danh mục sản phẩm và nhà cung cấp với OpenAI.
0:00 13/3/26
Wayfair đã tích hợp thành công các mô hình OpenAI vào hệ thống nội bộ của mình, tăng cường hỗ trợ nhà cung cấp và quản lý danh mục sản phẩm.
ChatGPT tăng cường bảo mật AI chống lại các cuộc tấn công chèn mã độc vào lời nhắc (Prompt Injection).
0:00 13/3/26
Các tác nhân AI ngày càng trở nên thành thạo hơn trong việc duyệt web, truy xuất thông tin và hành động tự động, điều này, mặc dù có lợi


%20(1).webp)



