top of page

Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

logo.png

Google Cloud Tự động phát hiện người tụt hậu

Generatived

0:00 1/9/25

Những thành phần lạc hậu đặt ra thách thức cho các nhà phát triển làm việc trên khối lượng công việc ML quy mô lớn. Khi hệ thống ngày càng lớn mạnh và mạnh mẽ hơn, các vấn đề với các thành phần nhỏ sẽ ảnh hưởng đến hiệu suất tổng thể. Cần có một thế hệ siêu máy tính mới để đào tạo thế hệ mô hình quy mô lớn tiếp theo.

Lỗi có thể được chia thành hai loại: "fail-stop" và "fail-throw". Loại đầu tiên khiến một thành phần bị sập, trong khi loại thứ hai chỉ đơn giản là làm chậm lại. Một nút hoạt động kém sẽ ảnh hưởng đến toàn bộ hệ thống, dẫn đến tăng thời gian đào tạo.

Để cải thiện độ tin cậy, điều quan trọng là phải tăng thời gian trung bình giữa các lần gián đoạn (MTBI) và giảm thời gian trung bình để khôi phục (MTTR). Quá trình khôi phục có thể được chia thành bốn giai đoạn: phát hiện sự cố, xác định, cấu hình lại hệ thống và phân tích nguyên nhân gốc rễ.

Google Cloud đã giới thiệu một phương pháp tự động phát hiện các bộ tăng tốc bị tụt hậu. Trong đào tạo phân tán quy mô lớn, tất cả các bộ tăng tốc đều hoạt động đồng bộ, và nếu một bộ tăng tốc bị tụt hậu, các bộ tăng tốc khác sẽ ở trạng thái nhàn rỗi. Sự chậm trễ này có thể do nhiều nguyên nhân, bao gồm lỗi phần cứng và lỗi phần mềm.

Việc xác định nguyên nhân gây chậm rất khó khăn, nhưng phương pháp của Google dựa trên phân tích nhân quả. Hệ thống được hiểu như một đồ thị liên kết và cụm GPU được giám sát thụ động. Nó hoạt động theo hai bước: xây dựng đồ thị giao tiếp và xác định nguyên nhân gây chậm.

Phương pháp tự động này giúp giảm phạm vi tìm kiếm từ hàng nghìn nút xuống chỉ còn vài nút, rút ​​ngắn thời gian tìm kiếm từ vài ngày xuống còn vài phút. Nếu phát hiện sự chậm trễ, dịch vụ sẽ đánh dấu và thực hiện hành động thích hợp.

Magic đã hợp tác với Google để phát triển Frontier LLM. Trước khi thuật toán phát hiện người dùng lạc lõng tự động được giới thiệu, việc xử lý sự cố thủ công là bắt buộc. Hiện tại, tính năng phát hiện người dùng lạc lõng được bật theo mặc định. Ai2 cũng được đào tạo trên Google Cloud, giúp cải thiện năng suất nghiên cứu.

Chia sẻ bài viết này:

Tin tức mới nhất
Cung cấp nhiều công cụ khác nhau cho các nhà phát triển Google

Cung cấp nhiều công cụ khác nhau cho các nhà phát triển Google

0:00 1/9/25

Google(Hoa Kỳ) cung cấp nhiều công cụ khác nhau cho các nhà phát triển.

Google AI tiết lộ phương pháp đo lường tác động môi trường

Google AI tiết lộ phương pháp đo lường tác động môi trường

0:00 1/9/25

Google(Mỹ) vừa công bố phương pháp mới để đo lường chi tiết tác động của AI tới môi trường.

Google Cloud Tự động phát hiện người tụt hậu

Google Cloud Tự động phát hiện người tụt hậu

0:00 1/9/25

Những người tụt hậu đặt ra thách thức cho các nhà phát triển làm việc trên khối lượng công việc ML quy mô lớn.

Azure AI Foundry ra mắt nền tảng quan sát tác nhân

Azure AI Foundry ra mắt nền tảng quan sát tác nhân

0:00 1/9/25

Khi trí tuệ nhân tạo (AI) ngày càng được tích hợp vào hoạt động của doanh nghiệp, khái niệm khả năng quan sát tác nhân trở nên ngày càng quan trọng.

Copyright © 2024 Generatived - All right Reserved.

Chia sẻ bài viết này:

Chia sẻ bài viết này:

Generatived AI Logo

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

  • Facebook
  • X

Hãy theo dõi chúng tôi

Ngôn ngữ

Tin tức mới nhất
Cung cấp nhiều công cụ khác nhau cho các nhà phát triển Google

Cung cấp nhiều công cụ khác nhau cho các nhà phát triển Google

0:00 1/9/25

Google(Hoa Kỳ) cung cấp nhiều công cụ khác nhau cho các nhà phát triển.

Google AI tiết lộ phương pháp đo lường tác động môi trường

Google AI tiết lộ phương pháp đo lường tác động môi trường

0:00 1/9/25

Google(Mỹ) vừa công bố phương pháp mới để đo lường chi tiết tác động của AI tới môi trường.

Google Cloud Tự động phát hiện người tụt hậu

Google Cloud Tự động phát hiện người tụt hậu

0:00 1/9/25

Những người tụt hậu đặt ra thách thức cho các nhà phát triển làm việc trên khối lượng công việc ML quy mô lớn.

Azure AI Foundry ra mắt nền tảng quan sát tác nhân

Azure AI Foundry ra mắt nền tảng quan sát tác nhân

0:00 1/9/25

Khi trí tuệ nhân tạo (AI) ngày càng được tích hợp vào hoạt động của doanh nghiệp, khái niệm khả năng quan sát tác nhân trở nên ngày càng quan trọng.

bottom of page