NVIDIAは、RGB画像からオブジェクトの6自由度(DOF)のポーズを正確に決定することで、オブジェクトとのロボットの相互作用を強化するように設計されたニューラルネットワーク モデルであるDeep Object Pose Estimation (DOPE)を導入した。このモデルは、倉庫や医療現場など、正確なオブジェクト操作が必要なタスクに特に役立つ。DOPEのトレーニングは合成データのみに依存しているため、データ収集とアノテーションに関連するコストが大幅に削減される。

モデルはインスタンスレベルで動作するため、オブジェクト タイプごとに個別のトレーニングが必要だ。この特異性により、たとえ部分的に遮られている場合でも、さまざまなオブジェクトをより正確に検出し、相互作用することができる。DOPEのアーキテクチャーは完全な畳み込みニューラルネットワークに基づいており、PnP (Perspective-n-point)アルゴリズムのおかげで、再トレーニングを必要とせずにさまざまなカメラの組み込みに適応できる。

DOPEのトレーニングを容易にするために、NVIDIAはIsaac Simを使用して合成データを生成する方法を提供した。これは、ドメインのランダム化技術を採用して現実世界のシナリオでのモデルのパフォーマンスを向上させる。生成されたデータセットには、オブジェクトのクラス、位置、方向、可視性の詳細を示す画像と注釈付きJSONファイルが含まれる。このアプローチは、合成トレーニング環境と現実世界のアプリケーションの間のギャップを埋めるのに役立つ。

トレーニングが完了すると、DOPEモデルはさまざまな指標を使用して評価され、その精度が保証される。このモデルは、合成画像のみでトレーニングされた場合でも、他の姿勢推定方法と比較して優れたパフォーマンスを実証した。実際の展開のために、NVIDIAのIsaac ROSはGPU高速化推論を可能にするパッケージを提供し、リアルタイムアプリケーション用のロボット システムにDOPEを統合することが可能になる。

ソース:NVIDIA Developer Blog