top of page

Generatived(Beta)|生成AIの最新ニュースとトレンドを提供

logo.png

Perplexity AI が AI スケーリングに NVIDIA の技術を採用

Generatived

24/12/6 4:30

AI 搭載検索エンジンの Perplexity AI は、NVIDIA の高度なテクノロジを活用して、AI サービスに対する需要の急増に対応しています。毎月 4 億 3,500 万件を超えるクエリを処理する Perplexity AI の推論チームは、NVIDIA H100 Tensor Core GPU、NVIDIA Triton Inference Server、NVIDIA TensorRT-LLM を採用し、コスト効率の高い大規模言語モデル (LLM) を展開しています。

Perplexity AI は、膨大なユーザー ベースに対応するために、さまざまな Llama 3.1 モデルのバリエーションを含む 20 を超える AI モデルを同時に運用しています。同社は、より小さな分類モデルを使用してユーザーの意図を識別し、GPU ポッドでホストされている適切な LLM にタスクを誘導します。これらのポッドは、NVIDIA H100 GPU を搭載し、NVIDIA Triton Inference Server インスタンスによって管理されており、コストとユーザー エクスペリエンスに関する厳格なサービス レベル契約 (SLA) に準拠しています。

Perplexity AI のインフラストラクチャは、Kubernetes クラスターが GPU ポッドをホストし、変動するトラフィックを処理するように設計されています。社内のフロントエンド スケジューラは、トラフィックをインテリジェントにルーティングして SLA を維持します。Triton 推論サーバーは、最適化されたモデルの提供、リクエストのバッチ処理、GPU 使用率メト​​リックの提供によって重要な役割を果たし、推論の需要に応じてリソースをスケーリングするのに役立ちます。

Perplexity 推論チームは、コストを最適化しながら厳格な SLA を満たすことに尽力しています。広範な A/B テストを通じて、さまざまなユースケースに最適な構成を決定し、GPU 使用率を最大化することに重点を置いています。ユーザー向けモデルについては、最初のトークンまでの時間や 100 万クエリあたりのコストなどの指標を考慮しながら、詳細なパフォーマンス分析を実施しています。モデルの並列処理と負荷分散戦略を採用して、GPU 予算内でパフォーマンスを向上させています。

Perplexity AI は、サードパーティの LLM API に頼るのではなく、クラウドホストの NVIDIA GPU でモデルをホストすることで、大幅なコスト削減を実現しました。たとえば、フォローアップのクエリを提案する関連質問機能により、同社は年間約 100 万ドルを節約できると推定されています。

Perplexity AI のパフォーマンスへのアプローチには、アプリケーションからハードウェア アクセラレータまで、スタックのすべてのレイヤーを最適化することが含まれます。同社は NVIDIA Triton を使用した分散型サービス手法を模索しており、兆パラメータ LLM の推論パフォーマンスを 30 倍向上させると期待される NVIDIA Blackwell プラットフォームの可能性に期待を寄せています。同社がGitHubおよびDockerコンテナとして利用できる NVIDIA Triton Inference Server や NVIDIA TensorRT などのオープン ソース プロジェクトを使用していることは、AI サービスにおけるイノベーションとパフォーマンスへの同社の取り組みを強調しています。

この記事を共有:

最新のニュース
ナレッジセンスAIとSalesforce連携

ナレッジセンスAIとSalesforce連携

26/2/18 0:00

ナレッジセンス(東京都港区)は、法人向けAIエージェント「ChatSense」の新機能として、CRM「Salesforce」のデータを学習可能な連携機能を開始した。

インティメートマージャーAIデータ活用ダッシュボード

インティメートマージャーAIデータ活用ダッシュボード

26/2/18 0:00

インティメート・マージャー(東京都港区)は、生成AIを活用した新ソリューション「データディスカバリーダッシュボード」の提供を開始した。

ケイデンスAI自動化で設計効率10倍

ケイデンスAI自動化で設計効率10倍

26/2/18 0:00

ケイデンス(米国カリフォルニア州サンノゼ市)は、半導体設計の新たな手法として「Cadence® ChipStack™ AI Super Agent」を発表した。

プルーフポイント、Acuvity買収でAI保護強化

プルーフポイント、Acuvity買収でAI保護強化

26/2/18 0:00

プルーフポイント(カリフォルニア州サニーベール)は、AIエンタープライズセキュリティの先駆者Acuvityの買収を発表。

Copyright © 2024 Generatived - All right Reserved.

この記事を共有:

この記事を共有:

Generatived AI Logo

Generatived は、Generative AIに特化した情報やトレンドをお届けするサービスです。大きく変わりゆく世界の情報を全力でお届けします。

  • Facebook
  • X

フォローをお願いします

言語

最新のニュース
ナレッジセンスAIとSalesforce連携

ナレッジセンスAIとSalesforce連携

26/2/18 0:00

ナレッジセンス(東京都港区)は、法人向けAIエージェント「ChatSense」の新機能として、CRM「Salesforce」のデータを学習可能な連携機能を開始した。

インティメートマージャーAIデータ活用ダッシュボード

インティメートマージャーAIデータ活用ダッシュボード

26/2/18 0:00

インティメート・マージャー(東京都港区)は、生成AIを活用した新ソリューション「データディスカバリーダッシュボード」の提供を開始した。

ケイデンスAI自動化で設計効率10倍

ケイデンスAI自動化で設計効率10倍

26/2/18 0:00

ケイデンス(米国カリフォルニア州サンノゼ市)は、半導体設計の新たな手法として「Cadence® ChipStack™ AI Super Agent」を発表した。

プルーフポイント、Acuvity買収でAI保護強化

プルーフポイント、Acuvity買収でAI保護強化

26/2/18 0:00

プルーフポイント(カリフォルニア州サニーベール)は、AIエンタープライズセキュリティの先駆者Acuvityの買収を発表。

bottom of page