Generatived（Beta）｜生成AIの最新ニュースとトレンドを提供

OpenAI、高解像度ビデオ生成モデル「Sora」を発表

Generatived

24/12/10 4:30

OpenAI は、テキスト、画像、既存の動画コンテンツなど、さまざまな入力から高解像度の動画を作成できる洗練された動画生成モデル Sora を発表しました。Sora のテクノロジーにより、最大 1080p、長さ 20 秒の動画を生成でき、ユーザーが自分のアセットを強化およびリミックスしたり、モデルのフィードで紹介されているコミュニティの作品からインスピレーションを得たりできるプラットフォームが提供されます。

DALL·E や GPT などの以前のモデルの進歩を基に、Sora は拡散モデルアプローチを採用し、複数のステップでベースビデオを静的ノイズから鮮明な画像に変換します。これにより、被写体が一時的にフレームから外れても、被写体の一貫性が確保されます。モデルのトランスフォーマーアーキテクチャは、GPT モデルに見られる機能と同様に、効率的なスケーリングを約束します。

Sora がテキスト指示に従って動画を生成する能力は、視覚トレーニングデータに対して非常に説明的なキャプションを作成する DALL·E 3 から借用した再キャプション作成技術によるものです。このモデルは静止画像をアニメーション化したり、既存の動画を正確に修正したりできるため、現実世界のシナリオをシミュレートできるモデルへの道が開かれます。これは、汎用人工知能 (AGI) の実現に向けた重要なステップです。

ただし、誤解を招くコンテンツや露骨なコンテンツの作成などの悪用の可能性から、OpenAI は堅牢な安全対策を実装するようになりました。これには、ChatGPT やその他の製品での DALL·E の導入戦略が含まれ、これらの安全対策を改良するための研究が進行中です。

このモデルは、公開データ、パートナーシップからの独自データ、カスタム社内データセットなど、さまざまなデータセットでトレーニングされました。トレーニング前のフィルタリングとデータ前処理により機密コンテンツが削除され、トレーニング用のデータセットがより安全になりました。

Sora の導入に備えて、OpenAI は世界中のビジュアルアーティストや映画製作者と協力してモデルを改良し、リスクを特定して軽減するための広範な内部および外部評価を実施しました。年齢制限、肖像アップロードの制限、保守的なモデレーションしきい値は、安全性に対する反復的なアプローチの一部です。

外部のレッドチームは、Sora の安全性緩和策のテストにおいて重要な役割を果たしました。さまざまな国のレッドチームが潜在的なリスクを調査し、モデルの機能をテストし、追加の安全対策につながる貴重なフィードバックを提供しました。

OpenAI の安全性への取り組みは、児童保護などの特定の分野にまで及び、NCMEC などの組織とのパートナーシップや高度な分類器の使用により、有害なコンテンツの生成と拡散を防止しています。ディープフェイクを含む露骨なコンテンツや欺瞞的な素材の生成を禁止するポリシーは、技術的な緩和策とユーザー教育の組み合わせによって実施されています。

OpenAI は Sora の改良を続けており、今後の取り組みでは、倫理的な整合性と安全性を確保しながら、モデルの創造的可能性を拡大することに重点を置きます。組織は、ユーザーからのフィードバックと継続的な評価に基づいて、出力表現、透明性、および出所ツールの改善に引き続き取り組んでいます。

出典： OpenAI Blog