Keras が Gemma 軽量モデルで KerasNLP を拡張

Kerasは最近、最先端のパフォーマンスを誇る軽量モデルの新しいシリーズであるGemmaを追加して、KerasNLPコレクションを拡張した。これらのモデルは、Geminiモデルと同じ研究に基づいて構築されており、開発者や研究者がアクセスできるようになった。Gemmaモデルは、Keras 3の機能のおかげで、JAX、PyTorch、TensorFlowなどの複数のバックエンドと互換性がある。このリリースでは、効率的な微調整と強化されたモデルのためのLoRA APIなど、大規模な言語モデルに合わせた新しい機能も導入されている。並行トレーニングのオプション。

Gemmaファミリには2Bおよび7Bパラメータを備えたモデルが含まれており、MMLU、GSM8K、HumanEvalなどのベンチマークで大幅な改善を実現し、同様のモデルやさらに大規模なモデルよりも優れたパフォーマンスを発揮する。Kerasは、簡単なインスタンス化とテキストプロンプトの即時生成のための組み込みトークン化を可能にするKerasNLP APIを使用して、これらのモデルをユーザーフレンドリーにした。開発者は、Gemmaモデルをすぐに使い始め、提供されているコードサンプルとガイドを通じてその機能を探索できる。

Keras 3の新機能により、大規模な言語モデルの微調整が容易になる。開発者はLoRA APIを使用してトレーニング可能なパラメータの数を効率的に削減できるようになり、数十億のパラメータをわずか数百万までまでモデルに微調整できるようになった。さらに、Keras 3は、データ並列およびモデル並列トレーニングを可能にする新しいディストリビューションAPIを使用して大規模なトレーニングをサポートしており、当初はJAXバックエンドで利用可能だった。これにより、TPUやマルチGPUマシンなどの分散セットアップ上で、Gemma 7Bのような大規模なモデルを微調整できる。

Kerasは今後、パフォーマンスを最適化するためのTransformerモデルのパーティーショニングに関するガイドをリリースする予定だ。このガイドでは、正規表現によるレイヤー分割の定義と分散計算のためのXLAコンパイラーの利用を含むセットアッププロセスについて詳しく説明する。Kerasは、Kaggleモデルハブで微調整された重みを共有するなど、コミュニティーがGemmaモデルに参加することを奨励しており、ユーザーは他のユーザーの貢献も見つけることができる。

ソース：Google Developers Blog

Big Tech AI AI企業/製品/技術テキスト系生成AI