Stability AIは、最新製品「DeepFloyd IF」を発表し、AIとテクノロジーの世界でブレークスルーを起こしました。DeepFloyd IFは、テキストを画像に高いフォトリアリズムと精度で統合できる、強力なテキスト・トゥ・イメージ・カスケード・ピクセル拡散モデルです。

この最先端モデルは、非商用で研究が許されるライセンスでリリースされ、研究室が高度なテキストから画像への生成アプローチを実験できるようになっています。Stability AIは、将来的に完全にオープンソースのDeepFloyd IFモデルをリリースする意向も表明しています。

DeepFloyd IFの最も印象的な特徴の1つは、テキストプロンプトを理解し、画像に適用する能力です。これは、大規模な言語モデルT5-XXL-1.1をテキストエンコーダとして使用し、さらに大量のテキスト-画像クロスアテンションレイヤーを使用することで実現されています。その結果、さまざまな空間関係に現れるさまざまな性質のオブジェクトと一緒に、首尾一貫した明確なテキストを生成するモデルが誕生しました。

また、DeepFloyd IFは、標準的な正方形だけでなく、垂直や水平といった非標準的なアスペクト比の画像を生成する機能を備えています。この機能は、正方形のアスペクト比の画像生成に限定される他のテキスト画像生成モデルとは一線を画しています。

また、「ゼロショット画像間変換」は、微調整を必要としない画像加工を可能にする画期的な機能です。これは、元画像を64ピクセルにリサイズし、順方向拡散でノイズを加え、新しいプロンプトで逆方向拡散を使い、画像をノイズ除去するというプロセスです。また、プロンプトのテキスト記述による超解像モジュールによってスタイルをさらに変更することができ、ユーザーはソース画像の基本形を維持しながら、出力におけるスタイル、パターン、詳細を変更する機会を得ることができます。

DeepFloyd IFモデルをトレーニングするために、Stability AIは、10億の(画像、テキスト)ペアを含むカスタム高品質LAION-Aデータセットを利用しました。LAION-Aは、LAION-5Bデータセットの英語部分の美的サブセットであり、類似ハッシュに基づく重複排除、余分なクリーニング、および元のデータセットへのその他の変更を経て得られたものです。電子透かし、NSFW、その他の不適切なコンテンツを除去するために、同社のカスタムフィルターが使用された。

テキストから画像への変換モデルの性能は、Fréchet Inception Distance(FID)スコアで評価され、スコアが低いほど性能が優れていることを示します。DeepFloyd IFは、COCOデータセットにおいて、ゼロショットで6.66という素晴らしいFIDスコアを達成し、その高いフォトリアリズムと精度を反映しています。

最後に、DeepFloyd IFのリリースは、テキスト画像生成の分野における大きなブレークスルーとなります。テキストを理解し、高い精度で画像を生成するこのモデルは、広告からインテリアまで、幅広い業界に革命を起こす可能性を秘めています。研究者や開発者は、この強力な新ツールを使って、どんな革新的なアプリケーションを作り出せるか、ぜひ試してみたいものです。


参照:Stability AI releases DeepFloyd IF, a powerful text-to-image model that can smartly integrate text into images