top of page

Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

logo.png

Sarvam AI と NVIDIA が多言語 AI モデルを加速

Generatived

0:00 20/2/26

インド・ベンガルールのAIスタートアップ企業Sarvam AIは、インドの多様な言語ニーズに応えるため、大規模な多言語基盤モデルを構築するという野心的なプロジェクトに着手しました。同社はNVIDIAと提携し、Sovereign 30Bモデルの性能向上を図り、厳しいレーテンシー目標の達成と推論効率の向上を目指しています。この協業により、NVIDIAのBlackwell GPUにおける推論速度は、NVIDIA H100 GPUのベースライン性能と比較して4倍に向上しました。

Sarvam AIとNVIDIAの共同エンジニアリングの取り組みにより、22のインド言語、英語、数学、そしてコードをサポートする基盤モデルの開発に成功しました。これらのモデルは、データから展開までをカバーするNVIDIAのAIプラットフォームを用いて最適化されており、高いパフォーマンスとローカライズされたAI機能を実現します。また、このパートナーシップにより、NeMoフレームワークやNeMo-RLなど、NVIDIAのNemotronライブラリでトレーニングされた新たなソブリン基盤モデルファミリーも誕生しました。

Sarvam AIのモデルは、ディープリーディングと言語密度のために設計されたMixture-of-Experts(MoE)アーキテクチャを採用しています。Sarvam 30Bモデルは19層の深さで128のエキスパートを擁し、Sarvam 100Bモデルは最大32層まで拡張可能です。両モデルとも、共通の特徴と特殊なタスクを処理するために、共通のエキスパート設計を採用しています。今回の協業では、これらのモデルをNVIDIAのHopper GPUとBlackwell GPU向けに最適化し、固有のサービス提供課題に対処することに注力しています。

Sarvam 30Bモデルの最適化プロセスでは、生の速度向上だけでなく、厳しいレーテンシー制約内での密度の最大化も考慮されました。チームは音声対音声エージェントのサービスレベル契約(SLA)を確立し、95パーセンタイルの最初のトークンまでの時間(TTFT)を1000ミリ秒未満、トークン間レーテンシー(ITL)を15ミリ秒未満とすることを目標としました。初期のパフォーマンス分析は、Sarvam 30Bアーキテクチャにとって重要な、KVキャッシュを基数ツリーとして管理するSGLang推論エンジンを用いて実施されました。チームは、MoEレイヤーのメモリ要件とコンピューティング要件のバランスを取りながら、モデルを2基のNVIDIA H100 SXM GPUに実装しました。

パフォーマンス分析の結果、SLAを満たすには、より深い最適化が必要であることが明らかになりました。チームは、32~64リクエストの同時実行範囲でボトルネックを特定し、NVIDIA Nsight Systemsを用いて実行トレースをキャプチャしました。最適化の対象として最もコストの高いカーネルを絞り込むことで、トランスフォーマー層の時間を34%削減しました。さらに、プリフィルとデコードの混合スケジューリングによってGPU使用率が向上し、分散サービングによってクリティカルパスのボトルネックが解消され、スループットが1.5倍向上しました。

エンドツーエンドのパフォーマンス向上は、カーネルの最適化、スケジューリング効率、そして分散型サービングによって実現しました。NVIDIA Blackwell GPU上でのSarvam 30Bモデルのパフォーマンスは、最大20PFLOPSのピークFP4演算性能と8TB/sのメモリ帯域幅を実現し、NVIDIA Blackwellアーキテクチャが生成AIを加速させるポテンシャルを実証しました。NVIDIA Model Optimizerを用いてモデルをNVFP4形式に量子化することで、特定の動作点において推論サービングのスループットが4倍に向上しました。

Sarvam AIとNVIDIAのコラボレーションは、モデル設計、カーネルエンジニアリング、スケジューリング戦略、量子化、そしてGPUアーキテクチャを相互最適化する潜在能力を示しています。その結果、国家レベルのワークロードに拡張可能な、より高速で経済的に実現可能かつ国家レベルで利用可能な推論スタックが実現します。このアプローチは、NVIDIAプラットフォーム上で大規模な実稼働レベルのAIシステムを構築する他のチームにとっての青写真となります。

Chia sẻ bài viết này:

Tin tức mới nhất
Ippu Senkin東和銀行AI導入効率化

Ippu Senkin東和銀行AI導入効率化

0:00 20/2/26

Ippu Senkin(東京都中央区)は、東和銀行(群馬県前橋市)に生成AIを活用した議事録AIアプリ「Towa Bank AI 1.0 -MEMO-(とわログ)」と規程・手続き検索AIアプリ「Towa Bank AI 1.0 -Buddy-(とわナビ)」を導入し、業務効率化を図った。

カヤック音威子府村AI副村長開発

カヤック音威子府村AI副村長開発

0:00 20/2/26

面白法人カヤック(神奈川県鎌倉市)は北海道中川郡音威子府村と共同で、村専用の対話型AI「ねっぷちゃん」を開発した。

SHIFT AI 農業にAI導入で新時代

SHIFT AI 農業にAI導入で新時代

0:00 20/2/26

SHIFT AI(東京都渋谷区)の西田健太郎と安藤雅士は、愛知県西尾市で開催された「2026 食と農のフォーラム西尾」に登壇した。

フレンセルAI×レタッチビジュアルサービス開始

フレンセルAI×レタッチビジュアルサービス開始

0:00 20/2/26

フレンセル(札幌市)はAI生成技術と人のレタッチ技術を組み合わせたビジュアル制作サービス「AI × RETOUCH LAB」を開始した。

Copyright © 2024 Generatived - All right Reserved.

Chia sẻ bài viết này:

Chia sẻ bài viết này:

Generatived AI Logo

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

  • Facebook
  • X

Hãy theo dõi chúng tôi

Ngôn ngữ

Tin tức mới nhất
Ippu Senkin東和銀行AI導入効率化

Ippu Senkin東和銀行AI導入効率化

0:00 20/2/26

Ippu Senkin(東京都中央区)は、東和銀行(群馬県前橋市)に生成AIを活用した議事録AIアプリ「Towa Bank AI 1.0 -MEMO-(とわログ)」と規程・手続き検索AIアプリ「Towa Bank AI 1.0 -Buddy-(とわナビ)」を導入し、業務効率化を図った。

カヤック音威子府村AI副村長開発

カヤック音威子府村AI副村長開発

0:00 20/2/26

面白法人カヤック(神奈川県鎌倉市)は北海道中川郡音威子府村と共同で、村専用の対話型AI「ねっぷちゃん」を開発した。

SHIFT AI 農業にAI導入で新時代

SHIFT AI 農業にAI導入で新時代

0:00 20/2/26

SHIFT AI(東京都渋谷区)の西田健太郎と安藤雅士は、愛知県西尾市で開催された「2026 食と農のフォーラム西尾」に登壇した。

フレンセルAI×レタッチビジュアルサービス開始

フレンセルAI×レタッチビジュアルサービス開始

0:00 20/2/26

フレンセル(札幌市)はAI生成技術と人のレタッチ技術を組み合わせたビジュアル制作サービス「AI × RETOUCH LAB」を開始した。

bottom of page