Generatived（Beta）｜生成AIの最新ニュースとトレンドを提供

NVIDIAがエージェント型AIシステム向けGroq 3 LPXを発表

Generatived

26/3/18 0:00

NVIDIAは、エージェントシステムのニーズに合わせて設計された新しいラック規模の推論アクセラレータ「Groq 3 LPX」を発表しました。LPXはNVIDIA Vera Rubin NVL72と連携して動作するように設計されており、低レーテンシーを必要とするAIアプリケーションに不可欠な高速トークン生成のための専用エンジンを提供します。一方、Vera Rubin NVL72は、トレーニングと推論の両方のタスクに対応する汎用性の高いソリューションとして引き続き機能し、幅広い処理を高スループットで処理できます。

Vera Rubin NVL72とLPXの連携は、エージェント型AIの未来にとって極めて重要です。エージェント型AIでは、ユーザー1人あたり毎秒最大1,000トークンのインタラクション速度が期待されています。この高速化により、AIシステムは継続的な推論、シミュレーション、応答を行うことが可能になり、ターン制のコミュニケーションではなく、リアルタイムのコラボレーションをシミュレートできます。また、エージェントグループを連携させる能力は、人間社会が集合知を活用するのと同様に、複雑なタスクを実行する可能性を高めます。

これらのシステムの高度な要件をサポートするには、高いスループットと低レーテンシーの両方を実現できる堅牢なインフラストラクチャが必要です。Vera Rubin NVL72とLPXを組み合わせたヘテロジニアスアーキテクチャは、大規模AIファクトリーのパフォーマンスと、継続的に稼働するエージェントシステムや最先端のAIアプリケーションに必要な迅速なトークン生成を両立させることで、このニーズを満たします。

NVIDIA Groq 3 LPXシステムは、相互接続された256個のアクセラレータを中心に構築されており、決定論的な実行と高いオンチップSRAM帯域幅を重視しています。この設計により、対話型推論は、並列処理レベルや要求の複雑さが変化する状況下でも応答性を維持します。Vera Rubin NVL72と連携して展開した場合、LPXは特にデコードループのレイテンシに敏感な部分を高速化し、Rubin GPUはプリフィルとデコードアテンションを管理します。これにより、AIファクトリーのスループットを損なうことなく対話型応答性を向上させる異種混在型のサービングパスが実現します。

ソース：NVIDIA Developer Blog