top of page
Generatif (Beta) |. Memberikan berita dan tren terkini dalam AI generatif
logo.png

Deteksi Orang yang Tertinggal Secara Otomatis di Google Cloud

Generatived

1/9/25, 00.00

Sistem yang tertinggal menjadi tantangan bagi para pengembang yang menangani beban kerja pembelajaran mesin (ML) skala besar. Seiring sistem tumbuh lebih besar dan lebih bertenaga, masalah dengan komponen kecil memengaruhi kinerja secara keseluruhan. Kelas superkomputer baru dibutuhkan untuk melatih model skala besar generasi berikutnya.

Kegagalan dapat dibagi menjadi dua jenis: "fail-stop" dan "fail-throw". Fail-stop menyebabkan komponen crash, sementara fail-throw hanya memperlambat sistem. Node yang berkinerja buruk memengaruhi keseluruhan sistem, sehingga memperpanjang waktu pelatihan.

Untuk meningkatkan keandalan, penting untuk meningkatkan waktu rata-rata antar gangguan (MTBI) dan mengurangi waktu rata-rata pemulihan (MTTR). Proses pemulihan dapat dibagi menjadi empat tahap: deteksi masalah, identifikasi, konfigurasi ulang sistem, dan analisis akar penyebab.

Google Cloud telah memperkenalkan metode untuk mendeteksi akselerator yang tertinggal secara otomatis. Dalam pelatihan terdistribusi skala besar, semua akselerator beroperasi secara sinkron, dan jika satu akselerator tertinggal, akselerator lain akan menganggur. Keterlambatan ini dapat disebabkan oleh berbagai masalah, termasuk kegagalan perangkat keras dan bug perangkat lunak.

Mengidentifikasi penyebab perlambatan memang sulit, tetapi pendekatan Google didasarkan pada analisis kausal. Sistem dipahami sebagai grafik yang saling terhubung dan klaster GPU dipantau secara pasif. Sistem ini bekerja dalam dua langkah: membangun grafik komunikasi dan mengidentifikasi penyebab perlambatan.

Pendekatan otomatis ini mengurangi cakupan pencarian dari ribuan node menjadi hanya beberapa node, sehingga mempersingkat waktu pencarian dari hitungan hari menjadi hitungan menit. Jika terjadi penundaan, layanan akan menandainya dan mengambil tindakan yang tepat.

Magic bermitra dengan Google untuk mengembangkan Frontier LLM. Sebelum algoritma deteksi straggler otomatis diperkenalkan, pemecahan masalah manual diperlukan. Kini, deteksi straggler diaktifkan secara default. Ai2 juga dilatih di Google Cloud, sehingga meningkatkan produktivitas riset.

Bagikan artikel ini:

Tin tức mới nhất
Ringkasan Platform Pembelajaran AI Yum Technology

Ringkasan Platform Pembelajaran AI Yum Technology

4/9/25, 00.00

UMU Technology Japan (Shinjuku-ku, Tokyo) akan mengadakan sesi informasi untuk perusahaan pelatihan dan staf pelatihan perusahaan tentang platform pembelajaran berbasis AI, "UMU."

Itoha AI Amine Maria mengumumkan dimulainya aktivitas

Itoha AI Amine Maria mengumumkan dimulainya aktivitas

4/9/25, 00.00

Itoha (Edogawa-ku, Tokyo) telah mengumumkan peluncuran model AI-nya, "Aimine Maria."

Webinar Kreatif AI Amana

Webinar Kreatif AI Amana

4/9/25, 00.00

Amana (Shinagawa-ku, Tokyo) akan mengadakan webinar bertajuk "Between Us - Dialog tentang AI dan Kreativitas dalam Praktik [Bagian 1: Bagaimana tempat kerja kreatif akan berubah?]" pada 17 September 2025.

Pengumuman penambahan data pencarian Ayudante AI

Pengumuman penambahan data pencarian Ayudante AI

4/9/25, 00.00

Ayudante (Chiyoda-ku, Tokyo) telah menambahkan data pencarian AI ke layanan analisis SEO/SEM dan iklan pencariannya "SERPs MAX," dan akan menawarkan versi baru mulai 1 Juli.

Copyright © 2024 Generatived - All right Reserved.

Bagikan artikel ini:

Bagikan artikel ini:

Generatived

Hãy theo dõi chúng tôi

  • Facebook
  • X

Bahasa

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Generatived AI Logo

Generatived adalah layanan yang memberikan informasi dan tren khusus dalam AI Generatif. Kami akan melakukan yang terbaik untuk menyampaikan informasi tentang dunia yang berubah dengan cepat.

  • Facebook
  • X

Ikuti kami

Bahasa

Berita terkini
Ringkasan Platform Pembelajaran AI Yum Technology

Ringkasan Platform Pembelajaran AI Yum Technology

4/9/25, 00.00

UMU Technology Japan (Shinjuku-ku, Tokyo) akan mengadakan sesi informasi untuk perusahaan pelatihan dan staf pelatihan perusahaan tentang platform pembelajaran berbasis AI, "UMU."

Itoha AI Amine Maria mengumumkan dimulainya aktivitas

Itoha AI Amine Maria mengumumkan dimulainya aktivitas

4/9/25, 00.00

Itoha (Edogawa-ku, Tokyo) telah mengumumkan peluncuran model AI-nya, "Aimine Maria."

Webinar Kreatif AI Amana

Webinar Kreatif AI Amana

4/9/25, 00.00

Amana (Shinagawa-ku, Tokyo) akan mengadakan webinar bertajuk "Between Us - Dialog tentang AI dan Kreativitas dalam Praktik [Bagian 1: Bagaimana tempat kerja kreatif akan berubah?]" pada 17 September 2025.

Pengumuman penambahan data pencarian Ayudante AI

Pengumuman penambahan data pencarian Ayudante AI

4/9/25, 00.00

Ayudante (Chiyoda-ku, Tokyo) telah menambahkan data pencarian AI ke layanan analisis SEO/SEM dan iklan pencariannya "SERPs MAX," dan akan menawarkan versi baru mulai 1 Juli.

bottom of page