Google は最近、PaLI-3 からヒントを得た新しいオープン ビジョン言語モデル (VLM) である PaliGemma を発表しました。PaliGemma は、SigLIP ビジョン モデルと Gemma 言語モデルを統合し、さまざまなビジョン言語タスクで最高レベルの微調整パフォーマンスを実現することを目指しています。このモデルは、事前トレーニング済みと微調整済みの両方の形式で提供され、さまざまなタスクに合わせて調整されたチェックポイントを備えており、開発者や研究者がすぐに使用できます。

同社はオープンな研究とイノベーションを支援するため、 GitHubやHugging Faceモデルなど、複数のプラットフォームから PaliGemma にアクセスできるようにしました。このモデルは、JAX とHugging Face Transformers をサポートしており、Kaggle、 Vertex AI Model Garden、ai.nvidia.com でも利用できます。この取り組みは、学術研究者にGoogle Cloud クレジットを提供し、Kaggle や Colab ノートブックなどの無料リソースを通じた探索を促進することを目的としています。

Gemma モデル シリーズの次期バージョンである Gemma 2 のリリースへの期待が高まっています。Gemma 2 は、その高度なアーキテクチャにより、パフォーマンスと効率性の新たなベンチマークを確立すると期待されています。270 億のパラメータを誇るこのモデルは、導入コストを大幅に削減しながら、優れたパフォーマンスを実現することが期待されています。NVIDIA GPU 向けに最適化されており、 Vertex AI の単一の TPU ホストに効率的に導入できます。

同社はまた、責任ある生成AIツールキットを強化し、LLM コンパレーターをオープンソース ツールとして導入しています。このインタラクティブなビジュアル ツールは、モデルを並べて評価できるように設計されており、開発者が AI アプリケーションの品質と安全性を確保するのに役立ちます。このツールキットは、革新的でありながら責任ある AI テクノロジーの作成を促進することを目的としています。これらの開発により、同社は最先端のテクノロジーと倫理的な慣行を融合した AI 開発への協力的なアプローチを継続的に推進しています。

ソース:Google Developers Blog