Meta AIによると、チーフAIサイエンティストであるYann LeCun氏が、人間のような知能の実現を目指すAIアーキテクチャー「I-JEPA」を発表した。I-JEPAは、Image Joint Embedding Predictive Architectureの略で、AI開発における大きな飛躍になると述べている。世界の内部モデルを学習し、迅速な学習、複雑なタスク計画、適応性を可能にする機械を作るというLeCunのビジョンを具現化したものだという。

I-JEPAは、従来のAIモデルとは異なり、ピクセルではなく画像の抽象的な表現を比較しながら、外界の内部モデルを作成することで学習する。このアプローチは、コンピュータービジョンのタスクで強力な性能を発揮するだけでなく、既存のモデルと比較して優れた計算効率を発揮する。また、I-JEPAが学習した表現は、大規模な微調整を行うことなくさまざまなアプリケーションに適用することができ、その汎用性の高さを示している。

I-JEPAは、その能力を示すために、16台のA100 GPUを使用して視覚変換モデルを72時間以内に学習させた。また、ImageNetのローショット分類タスクでは、1クラス当たりわずか12個のラベル付きサンプルで、最先端の性能を達成したという。I-JEPAの基盤は、画像や音声などのラベルのないデータを受動的に観察することで常識的な知識を獲得し、知的行動、効率的な概念の獲得、接地、計画などを促進する自己教師付き学習にあると説明した。

I-JEPAの本質的な側面として、人間の理解に近い抽象的な表現で欠落情報を予測する能力が挙げられる。I-JEPAは意味的な特徴を強調し、不必要なピクセルレベルの詳細を排除する。彼は、このモデルが意味情報を含む大きなブロックを予測し、マルチブロックマスキング戦略を活用した空間的に分散したコンテキストを取り込むことを実証した。

I-JEPAの効率の高さは、ターゲットエンコーダーによる画像ビューと、コンテキストエンコーダーによるコンテキストブロックの処理に起因する。このアプローチにより、計算量の多いデータ補強や複数の画像ビューを必要とせず、既製の強力な意味表現が得られるという。

I-JEPAは、AIにおける人間レベルの知能の実現に向けた大きな前進の代表格とされている。メタは、Joint Embedding Predictive Architectureのアプローチを、画像とテキストのペアデータや動画などの他の領域にも拡張することを計画している。これらの進歩は、動画理解のようなタスクを革新し、世界の包括的なモデルを学習する自己教師付き手法に道を開く可能性を秘めていると述べている。