Generatived(Beta)|生成AIの最新ニュースとトレンドを提供
%20(1).webp)
DeepMind RT-2:ロボット制御のための視覚-言語-行動モデル
Generatived
23/7/31 9:57
Google DeepMindは7月28日、「RT-2: 新しいモデルはビジョンと言語を行動に変換する」というブログ記事を投稿しました。以下は記事の要旨です。DeepMind の記事では、Web データとロボティクス データを組み合わせてロボット制御の命令を生成する、Robotic Transformer 2 (RT-2) と呼ばれる新しいビジョン言語アクション (VLA) モデルの開発について説明しています。ウェブスケールのデータセットでトレーニングされた大容量の視覚言語モデル (VLM) は、視覚と言語のパターンを認識するのに効果的であることが証明されていますが、ロボットが同様の能力を達成するには直接のデータが必要です。RT-2 は、オフィスのキッチン環境で 17 か月にわたって収集されたロボット データに関するマルチタスク デモンストレーションとトレーニングを組み込むことにより、以前のモデルである Robotic Transformer 1 (RT-1) をベースに構築されています。 RT-2 は、改良された一般化機能と、新しいコマンドを解釈して基本的な推論を実行する機能を示しています。このモデルは、アクションをモデルの出力内のトークンとして表すことにより、VLM をロボット制御に適応させます。 RT-2 はロボット工学と Web データに合わせて微調整されており、視覚的意味論的な理解とロボット制御を必要とするさまざまなタスクを実行できます。このモデルは、以前のベースラインと比較して汎化パフォーマンスの向上を示し、これまでに見たことのないオブジェクト、背景、環境を含むタスクにおいて他のモデルを上回っています。 RT-2 は、シミュレーションと現実世界のシナリオの両方で高い成功率を実現します。このモデルには、単一モデル内で長期的な計画と低レベルのスキルを可能にする思考連鎖推論も組み込まれています。 RT-2 は、現実世界でロボットを制御し、さまざまなタスクを実行する VLA モデルの可能性を実証します。
最新のニュース
Google Cloud Japan、「Gemini at Work」カンファレンス開催を発表
25/5/16 3:30
5月20Googleに開催予定の「 Google Cloud Gemini at Work '25」カンファレンスでは、著名なDXおよびICT教育プロバイダーの協力を得ます。
クルイズ、ペット旅行支援のためのAndroidアプリを発表
25/5/16 3:30
カリフォルニア州アーバイン、2025年5月14日 – ヒースロー空港での辛い経験から、起業家のブラッド・パウアーとアンジェラ・リーは、ペットとの旅行を簡素化するために設計されたAI搭載旅行アシスタント「Kruiz」を開発しました。
Atos、持続的な収益成長に向けたGenesis計画を発表
25/5/16 3:30
Atosグループは、中核事業の強みを活かし、持続可能で収益性の高い成長を目指す戦略的計画「Genesis」を発表しました。
Copyright © 2024 Generatived - All right Reserved.
ニュース
Generatived は、Generative AIに特化した情報やトレンドをお届けするサービスです。大きく変わりゆく世界の情報を全力でお届けします。
最新のニュース
Google Cloud Japan、「Gemini at Work」カンファレンス開催を発表
25/5/16 3:30
5月20Googleに開催予定の「 Google Cloud Gemini at Work '25」カンファレンスでは、著名なDXおよびICT教育プロバイダーの協力を得ます。
クルイズ、ペット旅行支援のためのAndroidアプリを発表
25/5/16 3:30
カリフォルニア州アーバイン、2025年5月14日 – ヒースロー空港での辛い経験から、起業家のブラッド・パウアーとアンジェラ・リーは、ペットとの旅行を簡素化するために設計されたAI搭載旅行アシスタント「Kruiz」を開発しました。
Atos、持続的 な収益成長に向けたGenesis計画を発表
25/5/16 3:30
Atosグループは、中核事業の強みを活かし、持続可能で収益性の高い成長を目指す戦略的計画「Genesis」を発表しました。