top of page

Generatived(Beta)|生成AIの最新ニュースとトレンドを提供

logo.png

NVIDIA、TensorRT-LLM パフォーマンスの大幅な向上を発表

Generatived

23/12/5 9:42

NVIDIAのTensorRT-LLMは大幅な進歩を遂げ、その結果、大規模言語モデル(LLM)の推論パフォーマンスが大幅に向上した。NVIDIA H200 GPUの最新の機能強化により、Llama 2 70B LLMの速度が6.7倍向上し、Falcon-180Bなどの大型モデルを単一のGPUで実行できるようになった。Llama 2 70Bの高速化は、Llama 2 70Bの重要な層であるマルチヘッドアテンション技術の拡張であるGrouped Query Attention(GQA)として知られる技術の最適化によるものだという。

Falcon-180Bは、最大かつ最も正確なオープンソース大規模言語モデルの1つであり、以前は実行するには少なくとも8つのNVIDIA A100 Tensor Core GPUが必要だった。ただし、カスタムINT4 AWQのTensorRT-LLMの進歩により、単一のH200 Tensor Core GPU上で完全に実行できるようになった。このGPUは、ほぼ5 TB/秒のメモリー帯域幅を備えた141 GBの最新のHBM3eメモリーを備えているという。

TensorRT-LLMの最新バージョンは、生成フェーズでGrouped Query Attention(GQA)カーネルが改善されており、NVIDIA A100 GPUで実行されている同じネットワークと比較して、H200で最大6.7倍のパフォーマンス向上を実現する。Llama 2 70Bで使用されるGQAは、key-value(KV)ヘッドをグループ化するマルチヘッドアテンション(MHA)の一種で、結果としてクエリー(Q)ヘッドよりもKVヘッドの数が少なくなる。このMHAのカスタム実装は、GQA、multi-query attention(MQA)、および標準MHAをサポートし、生​​成フェーズとコンテキストフェーズでNVIDIA Tensor Coreを活用し、NVIDIA GPUで優れたパフォーマンスを実現するという。

TensorRT-LLMの最新リリースでは、AWQ用のカスタムカーネルが実装されており、最新のHopper Tensor Coreテクノロジーを使用して、FP16ではなくNVIDIA Hopper GPUでFP8精度で計算を実行することで、この技術をさらに一歩進めている。このアプローチにより、AWQはメモリー使用量を削減しながら、他の4ビット方式よりも高い精度を維持できる。結果は、Falcon-180Bモデル全体が1台のH200に適合し、最大800トークン/秒の優れた推論スループットでモデルを実行できることを示している。ソース:

この記事を共有:

最新のニュース
AWS IndiaとYottaがNICのクラウドインフラストラクチャを強化

AWS IndiaとYottaがNICのクラウドインフラストラクチャを強化

26/2/19 0:00

Amazon Web Services Indiaは、Yotta Data Servicesと提携し、国立情報学センター(NIC)のMeghraj 2.0プロジェクトにAWS Outpostsを導入しました。

NVIDIA Enterprise RAGBlueprintがインテリジェント エージェントの機能を強化

NVIDIA Enterprise RAGBlueprintがインテリジェント エージェントの機能を強化

26/2/19 0:00

NVIDIA Enterprise RAGBlueprintは、企業データのマルチモーダル理解を提供することでインテリジェントエージェントの能力を強化することを目的とした、新しいモジュール式リファレンスアーキテクチャを導入しました。

NVIDIA、戦略的パートナーシップでインドのAI能力を強化

NVIDIA、戦略的パートナーシップでインドのAI能力を強化

26/2/19 0:00

インドは現在、人工知能(AI)の発展の最前線に立っており、ニューデリーでAIインパクトサミットを開催しました。

NVIDIA AI Enterprise がインドの技術成長を牽引

NVIDIA AI Enterprise がインドの技術成長を牽引

26/2/19 0:00

エージェント型AIはインドのテクノロジー分野に変革をもたらしており、業界リーダーはNVIDIAのAIエンタープライズソフトウェアとNemotronモデルを活用し、世界規模でサービスを強化しています。

Copyright © 2024 Generatived - All right Reserved.

この記事を共有:

この記事を共有:

Generatived AI Logo

Generatived は、Generative AIに特化した情報やトレンドをお届けするサービスです。大きく変わりゆく世界の情報を全力でお届けします。

  • Facebook
  • X

フォローをお願いします

言語

最新のニュース
AWS IndiaとYottaがNICのクラウドインフラストラクチャを強化

AWS IndiaとYottaがNICのクラウドインフラストラクチャを強化

26/2/19 0:00

Amazon Web Services Indiaは、Yotta Data Servicesと提携し、国立情報学センター(NIC)のMeghraj 2.0プロジェクトにAWS Outpostsを導入しました。

NVIDIA Enterprise RAGBlueprintがインテリジェント エージェントの機能を強化

NVIDIA Enterprise RAGBlueprintがインテリジェント エージェントの機能を強化

26/2/19 0:00

NVIDIA Enterprise RAGBlueprintは、企業データのマルチモーダル理解を提供することでインテリジェントエージェントの能力を強化することを目的とした、新しいモジュール式リファレンスアーキテクチャを導入しました。

NVIDIA、戦略的パートナーシップでインドのAI能力を強化

NVIDIA、戦略的パートナーシップでインドのAI能力を強化

26/2/19 0:00

インドは現在、人工知能(AI)の発展の最前線に立っており、ニューデリーでAIインパクトサミットを開催しました。

NVIDIA AI Enterprise がインドの技術成長を牽引

NVIDIA AI Enterprise がインドの技術成長を牽引

26/2/19 0:00

エージェント型AIはインドのテクノロジー分野に変革をもたらしており、業界リーダーはNVIDIAのAIエンタープライズソフトウェアとNemotronモデルを活用し、世界規模でサービスを強化しています。

bottom of page