NVIDIAは、NVIDIAのAIプラットフォームに最適化された新しいオープンモデル シリーズであるGemmaを導入するためにGoogleと協力することを発表した。Google DeepMindによって開発されたGemma 2Bおよび7Bモデルは、TensorRT-LLMライブラリーを活用して推論の最適化を強化し、高スループットと最高レベルのパフォーマンスを提供するように設計されている。このコラボレーションにより、開発者はNVIDIA RTX GPUを搭載したデスクトップ上で大規模言語モデル(LLM)のパワーを活用できるようになり、高度なAI機能へのアクセスが民主化される。

Gemmaモデルは、256Kの語彙サイズと最大8Kのコンテキスト長をサポートし、安全性を念頭に置いて設計されている。PIIフィルタリングを組み込んでデータセットから機密識別子を削除し、責任あるAI開発を保証する。さらに、モデルは人間のフィードバックからの強化学習の恩恵を受け、倫理的なAI実践と連携する。6兆を超えるトークンでトレーニングされたこれらのモデルは、開発者が自信を持って高度なAIアプリケーションを作成およびデプロイできるようにする準備が整っている。

TensorRT-LLMは、FP8、XQA、INT4アクティベーション対応の重み量子化など、Gemmaモデルのパフォーマンスを向上させる機能をいくつか導入している。FP8はディープラーニング アプリケーションの高速化を促進し、NVIDIA AIによって開発されたカーネルであるXQAは生成フェーズ中のアテンションメカニズムを最適化する。もう1つのイノベーションであるINT4 AWQにより、メモリー帯域幅が制限されたシナリオで効率的なメモリー使用とパフォーマンスの向上が可能になる。これらの進歩により、Gemmaモデルはバッチサイズが小さくても、より高い精度と速度で動作できるようになる。

NVIDIAのH200 TensorコアGPUは、Gemmaモデルで優れたパフォーマンスを発揮するように設定されており、Gemma 2Bでは1秒当たり79,000トークンを超え、Gemma 7Bでは19,000トークン近くを達成する。この機能は、単一のGPU上でリアルタイムのレーテンシーで数千人の同時ユーザーにサービスを提供することを意味する。開発者は、NVIDIAのAIプレーグラウンドと今後のChat with RTXデモアプリを通じてGemmaを間もなく体験できるようになる。さらに、最適化されたGemmaモデルチェックポイントがNGCで利用可能になり、FP8量子化バージョンにはHugging Face Optimum-NVIDIAライブラリー経由でアクセスできるようになり、高速LLM推論の統合が合理化される。

ソース:NVIDIA Developer Blog