top of page

Generatived(Beta)|生成AIの最新ニュースとトレンドを提供

logo.png

Google Cloud 自動ストラグラー検出

Generatived

25/9/1 0:00

ストラグラーは、大規模なMLワークロードを扱う開発者にとっての課題だ。システムが拡大し、強力になるほど、小さなコンポーネントの問題が全体のパフォーマンスに影響を及ぼすようになる。新しいレベルのスーパーコンピュータが、次世代の大規模モデルのトレーニングには必要とされる。

障害は「フェイルストップ」と「フェイルスロー」の2種類に分けられる。前者はコンポーネントがクラッシュし、後者は動作が遅くなるだけである。パフォーマンスが低いノードは、システム全体に影響を及ぼし、トレーニング時間の増加につながる。

信頼性を高めるためには、平均中断間隔(MTBI)を延ばし、平均復元時間(MTTR)を短くすることが重要だ。復旧プロセスは、問題の検出、特定、システムの再構成、根本原因分析の4段階に分けられる。

Google Cloudでは、ストラグラーを自動検出する方法が紹介されている。大規模な分散トレーニングでは、全アクセラレータが同期して動作し、一つのストラグラーが遅れると、他のアクセラレータがアイドル状態になる。この遅延は、ハードウェア障害やソフトウェアバグなど、様々な問題によって引き起こされる。

速度低下の原因を特定するのは困難だが、Googleのアプローチは因果分析に基づいている。システムは相互接続されたグラフとして理解され、GPUクラスタをパッシブにモニタリングする。通信グラフの構築と速度低下の原因特定の2ステップで動作する。

この自動化されたアプローチにより、検索範囲が数千のノードから数個に減り、検索時間が数日から数分に短縮される。遅延が特定されると、サービスによってフラグが立てられ、適切なアクションが実行される。

Magicは、Googleと提携してフロンティアLLMを開発した。自動ストラグラー検出アルゴリズムの導入前は、手動でのトラブルシューティングが必要だったが、現在はストラグラー検出がデフォルトで有効になっている。Ai2もGoogle Cloudでのトレーニングにより、研究の生産性を向上させた。

この記事を共有:

最新のニュース
Google、教育向けAI Proサービスを開始

Google、教育向けAI Proサービスを開始

25/9/4 0:00

Googleは、教育向けサービスを統合し、Gemini EducationとGemini Education Premiumを単一のサブスクリプションサービス「Google AI Pro for Education」に統合すると発表しました。

マイクロソフト、アジア太平洋地域におけるクリーンエネルギーへの取り組みを発表

マイクロソフト、アジア太平洋地域におけるクリーンエネルギーへの取り組みを発表

25/9/4 0:00

国際エネルギー機関(IEA)の報告によると、アジア太平洋地域は世界の電力需要の急増を牽引する見込みで、2030年までに3分の2の増加が見込まれています。

アフリカテック、AIを活用したヘルスケアの改善を発表

アフリカテック、AIを活用したヘルスケアの改善を発表

25/9/4 0:00

人工知能(AI)は急速に日常生活に不可欠な要素となりつつあり、特に医療分野においては、個人に合わせたソリューションやサービスの提供が期待されています。

eiicon愛知共創スタートアップ支援

eiicon愛知共創スタートアップ支援

25/9/4 0:00

eiicon(東京都文京区後楽)は、愛知県と共同で『AICHI CO-CREATION STARTUP PROGRAM 2025』を進行中である。

Copyright © 2024 Generatived - All right Reserved.

この記事を共有:

この記事を共有:

Generatived AI Logo

Generatived は、Generative AIに特化した情報やトレンドをお届けするサービスです。大きく変わりゆく世界の情報を全力でお届けします。

  • Facebook
  • X

フォローをお願いします

言語

最新のニュース
Google、教育向けAI Proサービスを開始

Google、教育向けAI Proサービスを開始

25/9/4 0:00

Googleは、教育向けサービスを統合し、Gemini EducationとGemini Education Premiumを単一のサブスクリプションサービス「Google AI Pro for Education」に統合すると発表しました。

マイクロソフト、アジア太平洋地域におけるクリーンエネルギーへの取り組みを発表

マイクロソフト、アジア太平洋地域におけるクリーンエネルギーへの取り組みを発表

25/9/4 0:00

国際エネルギー機関(IEA)の報告によると、アジア太平洋地域は世界の電力需要の急増を牽引する見込みで、2030年までに3分の2の増加が見込まれています。

アフリカテック、AIを活用したヘルスケアの改善を発表

アフリカテック、AIを活用したヘルスケアの改善を発表

25/9/4 0:00

人工知能(AI)は急速に日常生活に不可欠な要素となりつつあり、特に医療分野においては、個人に合わせたソリューションやサービスの提供が期待されています。

eiicon愛知共創スタートアップ支援

eiicon愛知共創スタートアップ支援

25/9/4 0:00

eiicon(東京都文京区後楽)は、愛知県と共同で『AICHI CO-CREATION STARTUP PROGRAM 2025』を進行中である。

bottom of page