Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo
%20(1).webp)
Google Cloud Tự động phát hiện người tụt hậu
Generatived
0:00 1/9/25
Những thành phần lạc hậu đặt ra thách thức cho các nhà phát triển làm việc trên khối lượng công việc ML quy mô lớn. Khi hệ thống ngày càng lớn mạnh và mạnh mẽ hơn, các vấn đề với các thành phần nhỏ sẽ ảnh hưởng đến hiệu suất tổng thể. Cần có một thế hệ siêu máy tính mới để đào tạo thế hệ mô hình quy mô lớn tiếp theo.
Lỗi có thể được chia thành hai loại: "fail-stop" và "fail-throw". Loại đầu tiên khiến một thành phần bị sập, trong khi loại thứ hai chỉ đơn giản là làm chậm lại. Một nút hoạt động kém sẽ ảnh hưởng đến toàn bộ hệ thống, dẫn đến tăng thời gian đào tạo.
Để cải thiện độ tin cậy, điều quan trọng là phải tăng thời gian trung bình giữa các lần gián đoạn (MTBI) và giảm thời gian trung bình để khôi phục (MTTR). Quá trình khôi phục có thể được chia thành bốn giai đoạn: phát hiện sự cố, xác định, cấu hình lại hệ thống và phân tích nguyên nhân gốc rễ.
Google Cloud đã giới thiệu một phương pháp tự động phát hiện các bộ tăng tốc bị tụt hậu. Trong đào tạo phân tán quy mô lớn, tất cả các bộ tăng tốc đều hoạt động đồng bộ, và nếu một bộ tăng tốc bị tụt hậu, các bộ tăng tốc khác sẽ ở trạng thái nhàn rỗi. Sự chậm trễ này có thể do nhiều nguyên nhân, bao gồm lỗi phần cứng và lỗi phần mềm.
Việc xác định nguyên nhân gây chậm rất khó khăn, nhưng phương pháp của Google dựa trên phân tích nhân quả. Hệ thống được hiểu như một đồ thị liên kết và cụm GPU được giám sát thụ động. Nó hoạt động theo hai bước: xây dựng đồ thị giao tiếp và xác định nguyên nhân gây chậm.
Phương pháp tự động này giúp giảm phạm vi tìm kiếm từ hàng nghìn nút xuống chỉ còn vài nút, rút ngắn thời gian tìm kiếm từ vài ngày xuống còn vài phút. Nếu phát hiện sự chậm trễ, dịch vụ sẽ đánh dấu và thực hiện hành động thích hợp.
Magic đã hợp tác với Google để phát triển Frontier LLM. Trước khi thuật toán phát hiện người dùng lạc lõng tự động được giới thiệu, việc xử lý sự cố thủ công là bắt buộc. Hiện tại, tính năng phát hiện người dùng lạc lõng được bật theo mặc định. Ai2 cũng được đào tạo trên Google Cloud, giúp cải thiện năng suất nghiên cứu.
Chia sẻ bài viết này:
Tin tức mới nhất
Cung cấp nhiều công cụ khác nhau cho các nhà phát triển Google
0:00 1/9/25
Google(Hoa Kỳ) cung cấp nhiều công cụ khác nhau cho các nhà phát triển.
Google AI tiết lộ phương pháp đo lường tác động môi trường
0:00 1/9/25
Google(Mỹ) vừa công bố phương pháp mới để đo lường chi tiết tác động của AI tới môi trường.
Google Cloud Tự động phát hiện người tụt hậu
0:00 1/9/25
Những người tụt hậu đặt ra thách thức cho các nhà phát triển làm việc trên khối lượng công việc ML quy mô lớn.
Copyright © 2024 Generatived - All right Reserved.
Chia sẻ bài viết này:
Chia sẻ bài viết này:
Danh mục
Tin tức
AI và luật/hệ thống/kinh tế/xã hội
Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.
Tin tức mới nhất
Cung cấp nhiều công cụ khác nhau cho các nhà phát triển Google
0:00 1/9/25
Google(Hoa Kỳ) cung cấp nhiều công cụ khác nhau cho các nhà phát triển.
Google AI tiết lộ phương pháp đo lường tác động môi trường
0:00 1/9/25
Google(Mỹ) vừa công bố phương pháp mới để đo lường chi tiết tác động của AI tới môi trường.
Google Cloud Tự động phát hiện người tụt hậu
0:00 1/9/25
Những người tụt hậu đặt ra thách thức cho các nhà phát triển làm việc trên khối lượng công việc ML quy mô lớn.