Generatived（Beta）｜生成AIの最新ニュースとトレンドを提供

DeepMind RT-2：ロボット制御のための視覚-言語-行動モデル

Generatived

23/7/31 9:57

Google DeepMindは7月28日、「RT-2: 新しいモデルはビジョンと言語を行動に変換する」というブログ記事を投稿しました。以下は記事の要旨です。DeepMind の記事では、Web データとロボティクスデータを組み合わせてロボット制御の命令を生成する、Robotic Transformer 2 (RT-2) と呼ばれる新しいビジョン言語アクション (VLA) モデルの開発について説明しています。ウェブスケールのデータセットでトレーニングされた大容量の視覚言語モデル (VLM) は、視覚と言語のパターンを認識するのに効果的であることが証明されていますが、ロボットが同様の能力を達成するには直接のデータが必要です。RT-2 は、オフィスのキッチン環境で 17 か月にわたって収集されたロボットデータに関するマルチタスクデモンストレーションとトレーニングを組み込むことにより、以前のモデルである Robotic Transformer 1 (RT-1) をベースに構築されています。 RT-2 は、改良された一般化機能と、新しいコマンドを解釈して基本的な推論を実行する機能を示しています。このモデルは、アクションをモデルの出力内のトークンとして表すことにより、VLM をロボット制御に適応させます。 RT-2 はロボット工学と Web データに合わせて微調整されており、視覚的意味論的な理解とロボット制御を必要とするさまざまなタスクを実行できます。このモデルは、以前のベースラインと比較して汎化パフォーマンスの向上を示し、これまでに見たことのないオブジェクト、背景、環境を含むタスクにおいて他のモデルを上回っています。 RT-2 は、シミュレーションと現実世界のシナリオの両方で高い成功率を実現します。このモデルには、単一モデル内で長期的な計画と低レベルのスキルを可能にする思考連鎖推論も組み込まれています。 RT-2 は、現実世界でロボットを制御し、さまざまなタスクを実行する VLA モデルの可能性を実証します。

出典： DeepMind Blog