Metaがテキストと画像生成用のAIモデルCM3leonを発表した
CM3leonは、テキストから画像への生成機能と画像からテキストへの生成機能を組み合わせており、以前のモデルより大幅に少ない計算能力で最高のパフォーマンスを実現するという。

CM3leonは、画像とテキスト生成の両方について「マルチタスク命令チューニング」を行っている。それにより、画像キャプションの生成や視覚的な質問応答などの重要なタスクのパフォーマンスが大幅に向上する。 テキストのみのモデル用に開発されたスケーリング戦略を、トークン化ベースの画像生成モデルにシームレスに一般化したという。

Metaのこのモデルは、テキストから画像への生成について、Googleの同種のモデルPartiを超えるという。MS-COCOベンチマークでは、Fréchet Inception Distance(FID)スコア4.88を達成しているという。CM3leonは、より小規模なデータセットでトレーニングした場合でも、高品質で複雑な構成を持つオブジェクトを生成できる能力があることを示しているという。

さらに、CM3leonの機能はテキストガイド付きの画像編集も備えており、テキストによる指示と視覚的なコンテンツを同時に理解することに優れている。このユニークな機能により、モデルは視覚的に一貫性があり、状況に応じて適切な画像編集を行うことができるという。