OpenAI の新しいテキストからビデオ生成モデル「Sora」

OpenAI の新しいテキストからビデオ生成モデル「Sora」のページが公開されました。現実世界での物理的な世界の動きを理解し、シミュレートするためにAIだそうです。

https://openai.com/sora

テキストから映像を作る

Soraは、テキストの指示からリアルで想像力豊かなシーンを作成できるAIモデルです。

技術レポートを読む

このページの動画はすべて、Soraが直接生成したものです。

能力

私たちは、現実世界でのインタラクションを必要とする問題の解決を支援するモデルをトレーニングすることを目標に、物理的な世界の動きを理解し、シミュレートするためにAIを教育しています。

私たちのテキストから動画への変換モデルであるSoraを紹介します。Soraは、視覚的な品質とユーザーのプロンプトに忠実であることを維持しながら、1分までのビデオを生成することができます。

今日、Soraはレッド・チーパーが危害やリスクを評価するために利用できるようになっています。また、多くのビジュアルアーティスト、デザイナー、映画制作者にもアクセスを許可し、クリエイティブな専門家にとって最も役立つモデルの進化方法についてフィードバックを得ています。

私たちは、OpenAIの外部の人々と協力し、フィードバックを得るために、また、どのようなAI機能が地平線上にあるのかを一般の人々に感じてもらうために、研究の進捗状況を早期に共有しています。

Soraは、複数のキャラクター、特定の種類の動き、被写体や背景の正確なディテールを持つ複雑なシーンを生成することができます。このモデルは、ユーザーがプロンプトで何を求めたかだけでなく、それらが物理的な世界にどのように存在するかも理解しています。

このモデルは言語を深く理解しているため、プロンプトを正確に解釈し、生き生きとした感情を表現する魅力的なキャラクターを生成することができます。また、Soraは、生成された1つのビデオ内で、キャラクターやビジュアルスタイルを正確に表現する複数のショットを作成することもできます。

現在のモデルには弱点があります。複雑なシーンの物理を正確にシミュレートすることに苦労するかもしれないし、原因と結果の特定の例を理解できないかもしれません。例えば、人はクッキーを齧るかもしれないが、その後、クッキーには齧った跡がないかもしれません。

また、プロンプトの空間的な詳細、たとえば左と右を混同したり、特定のカメラの軌跡をたどるような、時間をかけて起こる出来事の正確な描写に苦戦することもあります。

安全性

SoraをOpenAIの製品で利用できるようにする前に、いくつかの重要な安全対策を講じる予定です。私たちはレッドチーマー（誤報、憎悪的なコンテンツ、偏見などの分野の専門家）と協力し、モデルを敵対的にテストします。

また、動画がSoraによって生成されたかを判別する検出分類器など、誤解を招くコンテンツの検出に役立つツールも構築しています。将来、OpenAI製品にこのモデルを導入する際には、C2PAのメタデータを含める予定です。

私たちが展開に向けた新しい技術を開発するだけでなく、DALL-E 3を使用する製品のために構築した既存の安全手法を活用しています。

例えば、OpenAIの製品では、テキスト分類器は、過激な暴力、性的な内容、憎悪的なイメージ、有名人の肖像、または他人のIPを要求するような、使用ポリシーに違反するテキスト入力プロンプトをチェックし、拒否します。私たちはまた、生成されたすべてのビデオのフレームを確認するために使用される堅牢な画像分類器を開発し、それがユーザーに表示される前に、それが私たちの使用ポリシーに準拠していることを確認するのに役立っています。

私たちは、世界中の政策立案者、教育者、アーティストに働きかけ、彼らの懸念を理解し、この新技術の積極的な使用事例を特定していきます。広範な調査とテストにもかかわらず、私たちは、人々が私たちのテクノロジーを使用する有益な方法のすべてを予測することはできませんし、人々がそれを悪用する方法のすべてを予測することもできません。だからこそ私たちは、実際の使用例から学ぶことが、時間をかけてより安全なAIシステムを作り、リリースしていく上で重要な要素であると考えています。

研究手法

Soraは拡散モデルであり、静止ノイズのような動画から生成し、何段階にもわたってノイズを除去しながら徐々に変換していきます。

Soraは、動画全体を一度に生成することも、生成された動画を延長して長くすることもできます。一度に多くのフレームの先読みをモデルに与えることで、被写体が一時的に視界から外れても、被写体が変わらないようにするという難しい問題を解決しています。

GPTモデルと同様に、Soraはトランスフォーマーアーキテクチャを使用しており、優れたスケーリング性能を発揮します。

Soraは、動画や画像をパッチと呼ばれる小さなデータ単位の集まりとして表現し、各パッチはGPTにおけるトークンのようなものです。データの表現方法を統一することで、異なる時間、解像度、アスペクト比にまたがる、従来よりも幅広い視覚データに対して拡散変換器を学習させることができます。

Sora は、DALL-E と GPT モデルにおける過去の研究をベースにしています。これは、DALL-E 3に搭載されたリキャプション技術を利用したもので、視覚的な学習データに対して、非常に説明的なキャプションを生成します。その結果、このモデルは、生成されたビデオ内のユーザのテキスト指示に、より忠実に従うことができます。

また、テキスト指示のみから動画を生成するだけでなく、既存の静止画像から動画を生成することも可能で、画像の内容を細部まで正確にアニメーションさせることができます。また、既存の動画を拡張したり、欠けているフレームを埋めることもできます。詳しくは、テクニカルレポートをご覧ください。

Soraは、現実世界を理解しシミュレートできるモデルの基礎となるもので、AGIを実現するための重要なマイルストーンになると考えています。