Google Cloud、AI向けNVIDIA H100 GPU搭載の専用スパコン発売

2023年5月11日、Google Cloudはこのほど、AIや機械学習（ML）のワークロードを加速するために設計された、NVIDIA H100 GPUを搭載した専用スーパーコンピューターの発売を発表しました。これらの最先端のマシンは、高度なAIおよびMLの研究開発に比類のない処理能力と速度を提供することを目的としています。

AIおよびMLワークロードに高度な計算能力を必要とする顧客向けに、新しいスーパーコンピューターがGoogle Cloudプラットフォームで利用できるようになりました。これらのマシンは、世界で最も強力なスーパーコンピューターへのアクセスなど、最先端のコンピューティングリソースを顧客に提供するGoogleの継続的な取り組みの一環です。

A3スーパーコンピューターとは?

A3スーパーコンピューターは、Googleが開発したAIを中心とした新世代のスーパーコンピューターです。これらのマシンは、生成AIと大規模な言語モデルのイノベーションを促進する最も要求の厳しいAIモデルのトレーニングとサービスを提供するために特別に構築されており、NVIDIA H100 TensorコアGPUとGoogleの最先端のネットワーキングの進歩が搭載されており、あらゆる規模の顧客に適しています。A3は、Googleのカスタム設計の200Gbps IPUを組み込んだ先駆的なGPUインスタンスです。これにより、GPU間のデータ転送がCPUホストをバイパスし、他のVMネットワークやデータトラフィックから個別のインターフェイスを介して流れることが可能になり、MLモデルのトレーニングと推論の高速化につながります。これにより、企業はさらに洗練されたMLモデルを急速にトレーニングできるようになります。

スーパーコンピューターの特徴

新しいスーパーコンピューターは、高性能コンピューティング機能を提供するNVIDIAの最新かつ最先端のGPUアーキテクチャーであるAmpereアーキテクチャーを備えています。A3スーパーコンピューターの主な機能の一部を以下に示します。

NVIDIAのHopperアーキテクチャーを利用した8つのH100 GPUにより、3倍のコンピューティングスループットを実現
NVIDIA NVSwitchおよびNVLink 4.0を介したA3の8GPU間のバイセクション帯域幅は3.6TB/秒
次世代の第4世代インテルXeonスケーラブルプロセッサー
4800MHz DDR5 DIMMを介した2TBのホストメモリー

さらにスーパーコンピューターは、Google CloudのAIおよびMLツールで使用するために最適化されています。これは、顧客がこれらのツールを使用して、スーパーコンピューター上でモデルを迅速かつ簡単に構築およびトレーニングできることを意味します。

スーパーコンピューターの利点

A3スーパーコンピューターを使用する利点の一部を紹介ます。

トレーニング速度の向上：A3スーパーコンピューターは、前世代のシステムよりも最大10倍の速度でMLモデルをトレーニング可能
コストの削減：A3スーパーコンピューターは従来のスーパーコンピューターよりもコスト効率が高く、企業にとってより手ごろなオプションとなる
拡張性の向上：A3スーパーコンピューターは、あらゆるビジネスのニーズに合わせてスケールアップまたはスケールダウン可能
パフォーマンスの向上：A3スーパーコンピューターは、自然言語処理、コンピュータービジョン、機械翻訳など、幅広いMLワークロードのパフォーマンスを向上

全体として、A3スーパーコンピューターは、MLモデルのトレーニングと提供のための強力で多用途のプラットフォームです。これらは、トレーニング速度の向上、コストの削減、拡張性の向上など、従来のスーパーコンピューターに比べて多くの利点をもたらします。

NVIDIA H100 GPUを搭載したGoogle Cloudの専用スーパーコンピューターの発売は、AIとMLの研究開発の分野における重要な進歩です。これらのスーパーコンピューターは、研究とイノベーションのペースを加速するのに役立つ高度な機能と機能を提供し、研究者やデータサイエンティストがより複雑で洗練されたモデルを構築およびトレーニングできるようにすると同時に、柔軟でスケーラブルなコンピューティング環境により、あらゆる規模の組織がビジネスニーズに合わせてAIとMLの力を活用できるように支援します。

Big Tech AI