Generatived（Beta）｜生成AIの最新ニュースとトレンドを提供

Cerebras が画期的な AI 推論速度を達成

Generatived

25/1/31 5:00

Cerebras Systems は、AI パフォーマンスの大幅な向上を発表し、DeepSeek-R1-Distill-Llama-70B 推論で 1 秒あたり 1,500 トークン以上を達成しました。この速度は、既存の GPU ベースのソリューションの 57 倍の速さであると報告されており、複雑な AI タスクの処理速度が大幅に向上しています。同社の AI クラウド担当 SVP である Hagay Lupesko 氏は、長い推論プロセスをほぼ瞬時の応答に変換したことを強調し、開発者や企業が高度な AI モデルを活用する方法を変える可能性があると述べました。

Cerebras Wafer Scale Engine を搭載した同社のプラットフォームは、実世界のパフォーマンスが劇的に向上しています。たとえば、他のプラットフォームでは 22 秒かかる標準的なコーディングプロンプトが、Cerebras ではわずか 1.5 秒で完了します。これは、応答時間が 15 倍向上していることを示しています。この機能強化により、通常は大量の計算リソースを必要とする高度な推論モデルの実用的な展開が容易になると期待されています。

Cerebras は、Meta が開発した Llama アーキテクチャに、DeepSeek の 671B パラメータ Mixture of Experts (MoE) モデルの高度な推論機能を統合しました。このモデルは 70B パラメータサイズが効率的であるにもかかわらず、複雑な数学やコーディングタスクではより大きなモデルよりも優れています。Lupesko 氏は、セキュリティとプライバシーに対する同社の取り組みも強調し、すべての推論リクエストは米国ベースのデータセンター内で処理され、厳格なゼロデータ保持ポリシーが適用されているため、データが米国内にとどまり、顧客の単独の所有権のもとにあることを指摘しました。

DeepSeek-R1-Distill-Llama-70B モデルは現在、Cerebras Inference を通じて入手可能で、開発者プレビュープログラムを通じて一部の顧客にAPIアクセスが提供されています。これらの即時推論機能をアプリケーションに利用したいと考えている関係者は、Cerebras の Web サイトにアクセスして詳細情報を入手できます。Cerebras Systems は、革新的な AI モデルとアプリケーションの開発において、大手企業、研究機関、政府機関など、さまざまなクライアントを継続的にサポートしています。

出典：プレスリリース