top of page

Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

logo.png

NVIDIA giới thiệu Helix Parallel Processing để Enhance AI

Generatived

0:00 10/7/25

Hệ thống Blackwell của NVIDIA giải quyết những thách thức của các ứng dụng AI hiện đại, đòi hỏi phải quản lý lượng dữ liệu khổng lồ và phản hồi nhanh chóng. Việc giới thiệu Helix Parallelism, được phát triển với sự hợp tác của Blackwell, là một bước tiến lớn trong công nghệ AI. Kỹ thuật mới này làm tăng đáng kể số lượng người dùng mà một tác nhân AI có thể xử lý đồng thời, cải thiện khả năng xử lý người dùng đồng thời lên đến 32 lần ở một latency định so với các kỹ thuật xử lý song song truyền thống.

Hiệu quả giải mã thời gian thực của các hệ thống AI bị cản trở bởi hai nút thắt cổ chai chính: truyền trực tuyến bộ đệm khóa-giá trị (KV) và tải trọng số mạng truyền thẳng (FFN) từ DRAM. Các chiến lược song song hóa truyền thống gặp khó khăn trong việc tối ưu hóa các nút thắt cổ chai này đồng thời. Tuy nhiên, Helix Parallelism giải quyết vấn đề này bằng cách sử dụng chiến lược phân mảnh lai tách các chiến lược song song hóa sự chú ý và FFN thành một đường ống thời gian. Cách tiếp cận này giải quyết hiệu quả các thách thức của việc truyền trực tuyến bộ đệm KV và tải trọng số FFN phát sinh khi giải mã các ngữ cảnh có hàng triệu mã thông báo.

Luồng thực thi của Helix Parallelism được thiết kế để tối đa hóa việc sử dụng GPU và giảm thiểu latency. Bằng cách phân mảnh bộ đệm KV và áp dụng Tensor Parallelism theo cách tránh trùng lặp trên các GPU, Helix đạt được tính toán chú ý hiệu quả. Chiến lược này cũng bao gồm Helix Overlapped Pipeline Batchwise (HOP-B), một kỹ thuật đường ống chi tiết, để giảm thêm latency giữa các mã thông báo bằng cách chồng chéo giao tiếp và tính toán. Trong giai đoạn FFN, cùng một GPU được sử dụng lại để thực thi các khối FFN mà không có thời gian nhàn rỗi, chứng minh tính linh hoạt và hiệu quả của chiến lược Helix.

Kết quả mô phỏng trên phần cứng Blackwell của NVIDIA cho thấy Helix Parallelism thiết lập chuẩn hiệu suất mới trong giải mã mô hình ngôn ngữ quy mô lớn (LLM) ngữ cảnh dài. Kỹ thuật này đạt được thông lượng cao ở latency thấp, cải thiện đáng kể tương tác của người dùng và khả năng mở rộng hệ thống. Khi NVIDIA tiếp tục tinh chỉnh tối ưu hóa này cho các khuôn khổ suy luận, Helix Parallelism là một sự phát triển đầy hứa hẹn để phục vụ các mô hình AI có thể mở rộng mà không ảnh hưởng đến hiệu suất thời gian thực.

Chia sẻ bài viết này:

Tin tức mới nhất
DryRun Security vạch trần những lỗ hổng của các tác nhân mã hóa AI

DryRun Security vạch trần những lỗ hổng của các tác nhân mã hóa AI

0:00 13/3/26

DryRun Security vừa công bố nghiên cứu mới cho thấy các tác nhân lập trình AI, mặc dù giúp tăng tốc quá trình phát triển phần mềm, lại có xu hướng tạo ra các lỗ hổng bảo mật.

Opinosis Analytics ra mắt công cụ đánh giá khả năng tích hợp AI.

Opinosis Analytics ra mắt công cụ đánh giá khả năng tích hợp AI.

0:00 13/3/26

West Jordan, UTAH – Để giải quyết những thách thức mà các tổ chức gặp phải trong việc khai thác trí tuệ nhân tạo, Opinosis Analytics đã giới thiệu một công cụ chẩn đoán mới.

Entity ra mắt bốn chip MTIA mới được tối ưu hóa bằng trí tuệ nhân tạo.

Entity ra mắt bốn chip MTIA mới được tối ưu hóa bằng trí tuệ nhân tạo.

0:00 13/3/26

Công ty này đã công bố một kế hoạch đầy tham vọng nhằm phát triển và triển khai bốn thế hệ chip silicon tùy chỉnh mới trong vòng hai năm tới

Sáng kiến ​​Y tế AI nâng cao chất lượng chăm sóc sức khỏe vùng sâu vùng xa tại Úc.

Sáng kiến ​​Y tế AI nâng cao chất lượng chăm sóc sức khỏe vùng sâu vùng xa tại Úc.

0:00 13/3/26

Hệ thống chăm sóc sức khỏe của Úc sắp được hưởng lợi từ một sáng kiến ​​mới nhằm cải thiện kết quả sức khỏe cho cư dân ở các vùng sâu vùng xa,

Copyright © 2024 Generatived - All right Reserved.

Chia sẻ bài viết này:

Chia sẻ bài viết này:

Generatived AI Logo

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

  • Facebook
  • X

Hãy theo dõi chúng tôi

Ngôn ngữ

Tin tức mới nhất
DryRun Security vạch trần những lỗ hổng của các tác nhân mã hóa AI

DryRun Security vạch trần những lỗ hổng của các tác nhân mã hóa AI

0:00 13/3/26

DryRun Security vừa công bố nghiên cứu mới cho thấy các tác nhân lập trình AI, mặc dù giúp tăng tốc quá trình phát triển phần mềm, lại có xu hướng tạo ra các lỗ hổng bảo mật.

Opinosis Analytics ra mắt công cụ đánh giá khả năng tích hợp AI.

Opinosis Analytics ra mắt công cụ đánh giá khả năng tích hợp AI.

0:00 13/3/26

West Jordan, UTAH – Để giải quyết những thách thức mà các tổ chức gặp phải trong việc khai thác trí tuệ nhân tạo, Opinosis Analytics đã giới thiệu một công cụ chẩn đoán mới.

Entity ra mắt bốn chip MTIA mới được tối ưu hóa bằng trí tuệ nhân tạo.

Entity ra mắt bốn chip MTIA mới được tối ưu hóa bằng trí tuệ nhân tạo.

0:00 13/3/26

Công ty này đã công bố một kế hoạch đầy tham vọng nhằm phát triển và triển khai bốn thế hệ chip silicon tùy chỉnh mới trong vòng hai năm tới

Sáng kiến ​​Y tế AI nâng cao chất lượng chăm sóc sức khỏe vùng sâu vùng xa tại Úc.

Sáng kiến ​​Y tế AI nâng cao chất lượng chăm sóc sức khỏe vùng sâu vùng xa tại Úc.

0:00 13/3/26

Hệ thống chăm sóc sức khỏe của Úc sắp được hưởng lợi từ một sáng kiến ​​mới nhằm cải thiện kết quả sức khỏe cho cư dân ở các vùng sâu vùng xa,

bottom of page