Generatived（Beta）｜生成AIの最新ニュースとトレンドを提供

Perplexity AI が AI スケーリングに NVIDIA の技術を採用

Generatived

24/12/6 4:30

AI 搭載検索エンジンの Perplexity AI は、NVIDIA の高度なテクノロジを活用して、AI サービスに対する需要の急増に対応しています。毎月 4 億 3,500 万件を超えるクエリを処理する Perplexity AI の推論チームは、NVIDIA H100 Tensor Core GPU、NVIDIA Triton Inference Server、NVIDIA TensorRT-LLM を採用し、コスト効率の高い大規模言語モデル (LLM) を展開しています。

Perplexity AI は、膨大なユーザーベースに対応するために、さまざまな Llama 3.1 モデルのバリエーションを含む 20 を超える AI モデルを同時に運用しています。同社は、より小さな分類モデルを使用してユーザーの意図を識別し、GPU ポッドでホストされている適切な LLM にタスクを誘導します。これらのポッドは、NVIDIA H100 GPU を搭載し、NVIDIA Triton Inference Server インスタンスによって管理されており、コストとユーザーエクスペリエンスに関する厳格なサービスレベル契約 (SLA) に準拠しています。

Perplexity AI のインフラストラクチャは、Kubernetes クラスターが GPU ポッドをホストし、変動するトラフィックを処理するように設計されています。社内のフロントエンドスケジューラは、トラフィックをインテリジェントにルーティングして SLA を維持します。Triton 推論サーバーは、最適化されたモデルの提供、リクエストのバッチ処理、GPU 使用率メトリックの提供によって重要な役割を果たし、推論の需要に応じてリソースをスケーリングするのに役立ちます。

Perplexity 推論チームは、コストを最適化しながら厳格な SLA を満たすことに尽力しています。広範な A/B テストを通じて、さまざまなユースケースに最適な構成を決定し、GPU 使用率を最大化することに重点を置いています。ユーザー向けモデルについては、最初のトークンまでの時間や 100 万クエリあたりのコストなどの指標を考慮しながら、詳細なパフォーマンス分析を実施しています。モデルの並列処理と負荷分散戦略を採用して、GPU 予算内でパフォーマンスを向上させています。

Perplexity AI は、サードパーティの LLM API に頼るのではなく、クラウドホストの NVIDIA GPU でモデルをホストすることで、大幅なコスト削減を実現しました。たとえば、フォローアップのクエリを提案する関連質問機能により、同社は年間約 100 万ドルを節約できると推定されています。

Perplexity AI のパフォーマンスへのアプローチには、アプリケーションからハードウェアアクセラレータまで、スタックのすべてのレイヤーを最適化することが含まれます。同社は NVIDIA Triton を使用した分散型サービス手法を模索しており、兆パラメータ LLM の推論パフォーマンスを 30 倍向上させると期待される NVIDIA Blackwell プラットフォームの可能性に期待を寄せています。同社がGitHubおよびDockerコンテナとして利用できる NVIDIA Triton Inference Server や NVIDIA TensorRT などのオープンソースプロジェクトを使用していることは、AI サービスにおけるイノベーションとパフォーマンスへの同社の取り組みを強調しています。

ソース：NVIDIA Developer Blog