NVIDIAは、NVIDIA RTXシステムを搭載したWindows PC上の大規模言語モデル(LLM)のパフォーマンスを強化するために設計された開発者ツールスイートをCES 2024で発表した。これらのツールは、ゲームや生産性などのさまざまなユースケースに対応して、LLMアプリケーションの作成とユーザーのPCへの直接展開を容易にすることを目的としている。

同社は、Phi-2、Llama2、Mistral-7B、Code Llamaなど、広く使用されているコミュニティーモデルのサポートを拡大し、開発者が使用できる幅広い選択肢を確保している。これらのモデルは、TensorRT-LLM推論バックエンドを通じて、NVIDIA RTXシステムでのパフォーマンスが最適化されている。さらに、NVIDIAはTensorRT-LLM用のOpenAI Chat APIラッパーを導入し、最小限のコード調整でクラウドベースとローカルPC LLMアプリケーション間の移行を簡素化した。

NVIDIAは、ローカルシステム上でLLMを実行する機能を紹介する2つのオープンソース開発者リファレンスアプリケーションもリリースした。1つは、NVIDIA RTX GPUを搭載したWindows PC上で完全に動作する検索拡張生成(RAG)プロジェクトであり、もう1つは、Code Llamaを使用したローカルLLM推論をサポートするcontinue.dev Visual Studio Codeプラグインの参照プロジェクトだ。-13Bモデル。

NVIDIAは、ローカルPC上でLLMを実行する利点を強調し、コスト削減、常時稼働の可用性、レーテンシーの短縮によるパフォーマンスの向上、およびデータプライバシーの強化を強調している。1億台を超えるNVIDIA RTXシステムが出荷されており、新しいLLMを利用したアプリケーションにはかなりのユーザーベースが存在する。

開発者は、NVIDIA AIプラットフォームやNVIDIA AI Workbenchなどのツールを使用して、事前に最適化されたモデルにアクセスし、カスタムデータでモデルをトレーニングまたはカスタマイズし、NVIDIA RTXシステム用にモデルを最適化できるようになった。このワークフローは、クラウドとPC環境間のシームレスな移行をサポートし、生​​成AIプロジェクトの開発とスケーリングに柔軟性を提供する。AIワークベンチは今月後半にベータ版がリリースされる予定で、NVIDIA RTXシステム上のLLMアプリケーションの開発プロセスがさらに合理化される。

ソース:NVIDIA Developer Blog