Generatived（Beta）｜生成AIの最新ニュースとトレンドを提供

Google AI Studioが強化されたGemini 2.5モデルを発表

Generatived

25/10/8 5:00

Google AI Studioは、エージェントのユーザーインターフェースとのインタラクション能力を強化する新しい専用モデル、Gemini 2.5 Computer Useモデルのリリースを発表しました。Gemini 2.5 Proの視覚理解・推論機能を基盤とするこのモデルは、低レーテンシーを維持しながら、ウェブおよびモバイル制御タスクにおいて既存の代替モデルを上回る性能を発揮するように設計されています。開発者は、 Google AI StudioとVertex AIで利用可能なGemini APIを通じて、これらの高度な機能をアプリケーションに統合できるようになりました。

この新しいモデルは、フォームへの入力やウェブページやアプリケーションのナビゲーションなど、グラフィカルユーザーインターフェースとの直接的なインタラクションを必要とするタスクの自動化という課題に取り組んでいます。エージェントがクリック、タイピング、スクロールなどの操作を実行できるようにすることで、このモデルはデジタル環境と人間のインタラクションをシミュレートします。この進歩は、インタラクティブな要素の操作やログインの背後での操作を伴うタスクにおいて特に重要であり、多用途で汎用的なエージェントの開発における重要な一歩となります。

Gemini 2.5 コンピュータ利用モデルは、Gemini API内の `computer_use` ツールを使用して反復ループで動作します。ユーザーリクエスト、スクリーンショット、および操作履歴を処理し、適切な UI アクションレスポンスを生成します。これらのレスポンスには、クリックや入力などのアクションに対する関数呼び出しが含まれる場合があり、特定の操作に対してユーザーの確認を求めることもあります。このモデルのパフォーマンスは様々なベンチマークで検証されており、ブラウザおよびモバイル UI 制御タスクにおける有効性が実証されていますが、デスクトップ OS レベルの制御にはまだ最適化されていません。

Google AI Studioは、コンピュータを制御するAIエージェントの安全性の重要性を強調し、誤用、予期せぬ動作、ウェブベースの詐欺といった潜在的なリスクを認識しています。これらのリスクを軽減するため、このモデルには安全機能が組み込まれており、開発者向けに高リスクなアクションの実行を防ぐための安全対策を提供しています。開発者の皆様には、システムを徹底的にテストし、ドキュメントに記載されているベストプラクティスに従うことが推奨されます。Gemini 2.5のコンピュータ利用モデルは現在パブリックプレビューで公開されており、 Google AI Studioでは開発者の皆様にモデルを試用していただき、開発中のモデルへのフィードバックをご提供いただくことを歓迎しています。

ソース：The Keyword, Google