タスク固有のパフォーマンスを強化し、より正確で応答性の高い結果をユーザーに提供するために、企業は大規模な言語モデルをカスタマイズすることが増えている。ただし、このカスタマイズは、モデルが以前に学習したタスクを実行する能力を失う、壊滅的な忘却として知られる現象を引き起こす可能性がある。有効性を維持するには、企業が元のタスクと新しいタスクの両方でこれらのモデルを定期的に評価し、ユーザーエクスペリエンスを向上させるために継続的な最適化を確保することが重要だ。

大規模な言語モデルを評価するという課題に対応して、NVIDIA NeMoチームはNeMo Evaluatorの早期アクセスプログラムを導入した。このクラウドネイティブのマイクロサービスはベンチマーク プロセスを自動化し、基本モデルとカスタムモデルの両方の評価を可能にする。学術情報源、顧客が提供するデータ、LLMを審査員として使用した評価など、さまざまなベンチマークを利用して、包括的な分析を保証する。

NeMo Evaluatorは、NVIDIA NeMoのマイクロサービススイートの一部であり、カスタム生成AIモデルの開発と評価を合理化するように設計されている。このサービスは、統合を容易にするAPIエンドポイントを提供し、企業がモデルを継続的に改良および評価してパフォーマンスを向上できるようにする。このエバリュエーターは、さまざまな言語タスクにわたるモデルのパフォーマンスを評価する学術ベンチマークや、特定の企業のニーズに合わせたカスタムデータセットなど、さまざまな自動評価方法をサポートしている。

これらの機能の活用に関心のある企業向けに、早期アクセスプログラムはNeMo Evaluatorマイクロサービスへのゲートウェイを提供する。承認されると、参加者はサービスにアクセスできるとともに、NeMo CuratorやNeMo Customizerなどの追加のNVIDIA NeMoマイクロサービスを利用する機会も与えられる。これらのツールを総合すると、エンタープライズグレードのカスタム生成AIの作成が容易になり、革新的なソリューションの市場投入が加速される。

ソース:NVIDIA Developer Blog