Generatived（Beta）｜生成AIの最新ニュースとトレンドを提供

AWSとCerebrasが高速AI推論ソリューションを発表

Generatived

26/3/17 0:00

Amazon Web Services (AWS) は、Cerebras Systems との提携を発表し、生成型 AI アプリケーション向けに最速の AI 推論ソリューションを提供すると見込まれています。今後数か月以内に提供開始予定のこの新サービスは、 Amazon Bedrock を通じて利用可能となり、AI 推論タスクのパフォーマンスを大幅に向上させるように設計されています。この提携により、AWS Trainium を搭載したサーバーと Cerebras CS-3 システムが統合され、Elastic Fabric Adapter ネットワークを活用して処理が最適化されます。

この取り組みは、AI推論における速度ボトルネック、特にコーディング支援や対話型アプリケーションなど、リアルタイム応答を必要とするワークロードにおけるボトルネックの解消を目指しています。推論ワークロードをTrainiumとCS-3に分割することで、各システムは得意分野に集中でき、推論速度とパフォーマンスの大幅な向上を実現します。AWSのTrainiumは推論のプリフィル段階に最適化されており、Cerebras CS-3は、プロセスの中で最も時間のかかる部分であるデコード段階に特化しています。

世界最速のAIインフラストラクチャ構築で知られるCerebras Systemsは、今回の提携により、高速推論機能をAWSのグローバル顧客基盤に提供することで、大きなメリットを得られる見込みです。この分散型推論ソリューションにより、世界中の企業は既存のAWS環境内でこれらの強化された機能を利用できるようになります。今回の提携により、AWSはCerebrasの分散型推論ソリューションをAmazon Bedrockを通じて独占的に提供する最初のクラウドプロバイダーとなります。

推論分離と呼ばれるこの技術的手法は、AI推論プロセスをプリフィルとデコードという2つの明確な段階に分割します。プリフィルにはAWS Trainium、デコードにはCerebras CS-3を活用することで、各段階特有の計算上の課題を最適化するように設計されています。この戦略的な分離と高帯域幅のEFAネットワークを組み合わせることで、既存のソリューションよりも桁違いに高速な推論性能を実現することが期待されます。

出典：Amazon Press release archive_AI