top of page
Generatif (Beta) |. Memberikan berita dan tren terkini dalam AI generatif
logo.png

Sarvam AI と NVIDIA が多言語 AI モデルを加速

Generatived

20/2/26, 00.00

インド・ベンガルールのAIスタートアップ企業Sarvam AIは、インドの多様な言語ニーズに応えるため、大規模な多言語基盤モデルを構築するという野心的なプロジェクトに着手しました。同社はNVIDIAと提携し、Sovereign 30Bモデルの性能向上を図り、厳しいレーテンシー目標の達成と推論効率の向上を目指しています。この協業により、NVIDIAのBlackwell GPUにおける推論速度は、NVIDIA H100 GPUのベースライン性能と比較して4倍に向上しました。

Sarvam AIとNVIDIAの共同エンジニアリングの取り組みにより、22のインド言語、英語、数学、そしてコードをサポートする基盤モデルの開発に成功しました。これらのモデルは、データから展開までをカバーするNVIDIAのAIプラットフォームを用いて最適化されており、高いパフォーマンスとローカライズされたAI機能を実現します。また、このパートナーシップにより、NeMoフレームワークやNeMo-RLなど、NVIDIAのNemotronライブラリでトレーニングされた新たなソブリン基盤モデルファミリーも誕生しました。

Sarvam AIのモデルは、ディープリーディングと言語密度のために設計されたMixture-of-Experts(MoE)アーキテクチャを採用しています。Sarvam 30Bモデルは19層の深さで128のエキスパートを擁し、Sarvam 100Bモデルは最大32層まで拡張可能です。両モデルとも、共通の特徴と特殊なタスクを処理するために、共通のエキスパート設計を採用しています。今回の協業では、これらのモデルをNVIDIAのHopper GPUとBlackwell GPU向けに最適化し、固有のサービス提供課題に対処することに注力しています。

Sarvam 30Bモデルの最適化プロセスでは、生の速度向上だけでなく、厳しいレーテンシー制約内での密度の最大化も考慮されました。チームは音声対音声エージェントのサービスレベル契約(SLA)を確立し、95パーセンタイルの最初のトークンまでの時間(TTFT)を1000ミリ秒未満、トークン間レーテンシー(ITL)を15ミリ秒未満とすることを目標としました。初期のパフォーマンス分析は、Sarvam 30Bアーキテクチャにとって重要な、KVキャッシュを基数ツリーとして管理するSGLang推論エンジンを用いて実施されました。チームは、MoEレイヤーのメモリ要件とコンピューティング要件のバランスを取りながら、モデルを2基のNVIDIA H100 SXM GPUに実装しました。

パフォーマンス分析の結果、SLAを満たすには、より深い最適化が必要であることが明らかになりました。チームは、32~64リクエストの同時実行範囲でボトルネックを特定し、NVIDIA Nsight Systemsを用いて実行トレースをキャプチャしました。最適化の対象として最もコストの高いカーネルを絞り込むことで、トランスフォーマー層の時間を34%削減しました。さらに、プリフィルとデコードの混合スケジューリングによってGPU使用率が向上し、分散サービングによってクリティカルパスのボトルネックが解消され、スループットが1.5倍向上しました。

エンドツーエンドのパフォーマンス向上は、カーネルの最適化、スケジューリング効率、そして分散型サービングによって実現しました。NVIDIA Blackwell GPU上でのSarvam 30Bモデルのパフォーマンスは、最大20PFLOPSのピークFP4演算性能と8TB/sのメモリ帯域幅を実現し、NVIDIA Blackwellアーキテクチャが生成AIを加速させるポテンシャルを実証しました。NVIDIA Model Optimizerを用いてモデルをNVFP4形式に量子化することで、特定の動作点において推論サービングのスループットが4倍に向上しました。

Sarvam AIとNVIDIAのコラボレーションは、モデル設計、カーネルエンジニアリング、スケジューリング戦略、量子化、そしてGPUアーキテクチャを相互最適化する潜在能力を示しています。その結果、国家レベルのワークロードに拡張可能な、より高速で経済的に実現可能かつ国家レベルで利用可能な推論スタックが実現します。このアプローチは、NVIDIAプラットフォーム上で大規模な実稼働レベルのAIシステムを構築する他のチームにとっての青写真となります。

Bagikan artikel ini:

Tin tức mới nhất
Kompatibel dengan streaming sintesis suara AI ORENDA

Kompatibel dengan streaming sintesis suara AI ORENDA

18/2/26, 00.00

ORENDA WORLD (Minato-ku, Tokyo) mengumumkan bahwa solusi sintesis suara AI yang dikembangkan sendiri, "NEXPEEECH®," kini mendukung pemutaran streaming.

Integrasi Knowledge Sense AI dan Salesforce

Integrasi Knowledge Sense AI dan Salesforce

18/2/26, 00.00

KnowledgeSense (Minato Ward, Tokyo) telah meluncurkan fungsi baru untuk agen AI perusahaan mereka, "ChatSense,"

Dasbor Pemanfaatan Data AI Penggabungan Intim

Dasbor Pemanfaatan Data AI Penggabungan Intim

18/2/26, 00.00

Intimate Merger (Minato-ku, Tokyo) telah meluncurkan solusi baru bernama "Data Discovery Dashboard" yang memanfaatkan Generative AI.

Otomatisasi AI Cadence meningkatkan efisiensi desain hingga 10 kali lipat.

Otomatisasi AI Cadence meningkatkan efisiensi desain hingga 10 kali lipat.

18/2/26, 00.00

Cadence (San Jose, California, AS) telah mengumumkan Cadence ChipStack™ AI Super Agent, sebuah pendekatan baru untuk desain semikonduktor.

Copyright © 2024 Generatived - All right Reserved.

Bagikan artikel ini:

Bagikan artikel ini:

Generatived

Hãy theo dõi chúng tôi

  • Facebook
  • X

Bahasa

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Generatived AI Logo

Generatived adalah layanan yang memberikan informasi dan tren khusus dalam AI Generatif. Kami akan melakukan yang terbaik untuk menyampaikan informasi tentang dunia yang berubah dengan cepat.

  • Facebook
  • X

Ikuti kami

Bahasa

Berita terkini
Kompatibel dengan streaming sintesis suara AI ORENDA

Kompatibel dengan streaming sintesis suara AI ORENDA

18/2/26, 00.00

ORENDA WORLD (Minato-ku, Tokyo) mengumumkan bahwa solusi sintesis suara AI yang dikembangkan sendiri, "NEXPEEECH®," kini mendukung pemutaran streaming.

Integrasi Knowledge Sense AI dan Salesforce

Integrasi Knowledge Sense AI dan Salesforce

18/2/26, 00.00

KnowledgeSense (Minato Ward, Tokyo) telah meluncurkan fungsi baru untuk agen AI perusahaan mereka, "ChatSense,"

Dasbor Pemanfaatan Data AI Penggabungan Intim

Dasbor Pemanfaatan Data AI Penggabungan Intim

18/2/26, 00.00

Intimate Merger (Minato-ku, Tokyo) telah meluncurkan solusi baru bernama "Data Discovery Dashboard" yang memanfaatkan Generative AI.

Otomatisasi AI Cadence meningkatkan efisiensi desain hingga 10 kali lipat.

Otomatisasi AI Cadence meningkatkan efisiensi desain hingga 10 kali lipat.

18/2/26, 00.00

Cadence (San Jose, California, AS) telah mengumumkan Cadence ChipStack™ AI Super Agent, sebuah pendekatan baru untuk desain semikonduktor.

bottom of page