Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

Sarvam AI と NVIDIA が多言語 AI モデルを加速
Generatived
0:00 20/2/26
インド・ベンガルールのAIスタートアップ企業Sarvam AIは、インドの多様な言語ニーズに応えるため、大規模な多言語基盤モデルを構築するという野心的なプロジェクトに着手しました。同社はNVIDIAと提携し、Sovereign 30Bモデルの性能向上を図り、厳しいレーテンシー目標の達成と推論効率の向上を目指しています。この協業により、NVIDIAのBlackwell GPUにおける推論速度は、NVIDIA H100 GPUのベースライン性能と比較して4倍に向上しました。
Sarvam AIとNVIDIAの共同エンジニアリングの取り組みにより、22のインド言語、英語、数学、そしてコードをサポートする基盤モデルの開発に成功しました。これらのモデルは、データから展開までをカバーするNVIDIAのAIプラットフォームを用いて最適化されており、高いパフォーマンスとローカライズされたAI機能を実現します。また、このパートナーシップにより、NeMoフレームワークやNeMo-RLなど、NVIDIAのNemotronライブラリでトレーニングされた新たなソブリン基盤モデルファミリーも誕生しました。
Sarvam AIのモデルは、ディープリーディングと言語密度のために設計されたMixture-of-Experts(MoE)アーキテクチャを採用しています。Sarvam 30Bモデルは19層の深さで128のエキスパートを擁し、Sarvam 100Bモデルは最大32層まで拡張可能です。両モデルとも、共通の特徴と特殊なタスクを処理するために、共通のエキスパート設計を採用しています。今回の協業では、これらのモデルをNVIDIAのHopper GPUとBlackwell GPU向けに最適化し、固有のサービス提供課題に対処することに注力しています。
Sarvam 30Bモデルの最適化プロセスでは、生の速度向上だけでなく、厳しいレーテンシー制約内での密度の最大化も考慮されました。チームは音声対音声エージェントのサービスレベル契約(SLA)を確立し、95パーセンタイルの最初のトークンまでの時間(TTFT)を1000ミリ秒未満、トークン間レーテンシー(ITL)を15ミリ秒未満とすることを目標としました。初期のパフォーマンス分析は、Sarvam 30Bアーキテクチャにとって重要な、KVキャッシュを基数ツリーとして管理するSGLang推論エンジンを用いて実施されました。チームは、MoEレイヤーのメモリ要件とコンピューティング要件のバランスを取りながら、モデルを2基のNVIDIA H100 SXM GPUに実装しました。
パフォーマンス分析の結果、SLAを満たすには、より深い最適化が必要であることが明らかになりました。チームは、32~64リクエストの同時実行範囲でボトルネックを特定し、NVIDIA Nsight Systemsを用いて実行トレースをキャプチャしました。最適化の対象として最もコストの高いカーネルを絞り込むことで、トランスフォーマー層の時間を34%削減しました。さらに、プリフィルとデコードの混合スケジューリングによってGPU使用率が向上し、分散サービングによってクリティカルパスのボトルネックが解消され、スループットが1.5倍向上しました。
エンドツーエンドのパフォーマンス向上は、カーネルの最適化、スケジューリング効率、そして分散型サービングによって実現しました。NVIDIA Blackwell GPU上でのSarvam 30Bモデルのパフォーマンスは、最大20PFLOPSのピークFP4演算性能と8TB/sのメモリ帯域幅を実現し、NVIDIA Blackwellアーキテクチャが生成AIを加速させるポテンシャルを実証しました。NVIDIA Model Optimizerを用いてモデルをNVFP4形式に量子化することで、特定の動作点において推論サービングのスループットが4倍に向上しました。
Sarvam AIとNVIDIAのコラボレーションは、モデル設計、カーネルエンジニアリング、スケジューリング戦略、量子化、そしてGPUアーキテクチャを相互最適化する潜在能力を示しています。その結果、国家レベルのワークロードに拡張可能な、より高速で経済的に実現可能かつ国家レベルで利用可能な推論スタックが実現します。このアプローチは、NVIDIAプラットフォーム上で大規模な実稼働レベルのAIシステムを構築する他のチームにとっての青写真となります。
Chia sẻ bài viết này:
Tin tức mới nhất
Chức năng mới của AI trường Mingaku đã được thêm vào.
0:00 19/2/26
Công ty Mingaku (Quận Chuo, Tokyo) đã bổ sung tính năng mới "Nhật ký Phát triển" vào nền tảng giáo dục "School AI" của mình.
ShiftPlus tăng cường hợp tác với trí tuệ nhân tạo (AI) của chính quyền địa phương
0:00 19/2/26
ShiftPlus (thành phố Miyakonojo, tỉnh Miyazaki) thông báo đã tăng cường rà soát chính sách và hỗ trợ doanh nghiệp bằng cách liên kết "Acrocity x BI" của GCOM Holdings
Ajinomoto Frozen Foods đạt tỷ lệ sử dụng AI nội bộ 80%.
0:00 19/2/26
Công ty Ajinomoto Frozen Foods (Tokyo) đã tạo ra một môi trường nơi Generative AI) trở thành tiêu chuẩn, đạt tỷ lệ áp dụng nội bộ hơn 80% vào tháng 3 năm 2025.
Copyright © 2024 Generatived - All right Reserved.
Chia sẻ bài viết này:
Chia sẻ bài viết này:
Danh mục
Tin tức
AI và luật/hệ thống/kinh tế/xã hội
Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.
Tin tức mới nhất
Chức năng mới của AI trường Mingaku đã được thêm vào.
0:00 19/2/26
Công ty Mingaku (Quận Chuo, Tokyo) đã bổ sung tính năng mới "Nhật ký Phát triển" vào nền tảng giáo dục "School AI" của mình.
ShiftPlus tăng cường hợp tác với trí tuệ nhân tạo (AI) của chính quyền địa phương
0:00 19/2/26
ShiftPlus (thành phố Miyakonojo, tỉnh Miyazaki) thông báo đã tăng cường rà soát chính sách và hỗ trợ doanh nghiệp bằng cách liên kết "Acrocity x BI" của GCOM Holdings
Ajinomoto Frozen Foods đạt tỷ lệ sử dụng AI nội bộ 80%.
0:00 19/2/26
Công ty Ajinomoto Frozen Foods (Tokyo) đã tạo ra một môi trường nơi Generative AI) trở thành tiêu chuẩn, đạt tỷ lệ áp dụng nội bộ hơn 80% vào tháng 3 năm 2025.



%20(1).webp)


