参考資料

Sora 2が登場

OpenAIが開発する動画生成モデル「Sora 2」がリリースされました。バージョン1から、およそ10ヶ月でのアップデートです。

https://openai.com/index/sora-2/

 

Sora 2が登場

最新の動画生成モデルは、従来のシステムよりも物理的に正確で、リアルかつ制御性に優れています。さらに、同期された対話と効果音も特徴です。新しいSoraアプリで創作をお楽しみください。

 

本日、当社の主力となる動画・音声生成モデル「Sora 2」をリリースします。

2024年2月に発表した初代Soraモデルは、多くの点で動画分野におけるGPT-1の瞬間でした。動画生成が初めて機能し始めたように見え、事前学習の計算規模拡大によって物体の恒常性といった単純な行動が初めて現れたのです。その後、Soraチームはより高度な世界シミュレーション能力を備えたモデルの訓練に注力してきました。こうしたシステムは、物理世界を深く理解するAIモデルの訓練に不可欠だと考えています。その重要なマイルストーンとなるのが、大規模動画データを用いた事前学習と事後学習の習得です。これは言語処理分野に比べ、まだ始まったばかりの段階にあります。

 

プロンプト:フィギュアスケーターが頭に猫を乗せた状態でトリプルアクセルを決める

 

プロンプト:男がパドルボードでバックフリップをする

 

プロンプト:両足を広げて2頭の馬の上に立つ人物。スローモーションではなく、現実的に描くこと。最終的に男はかなり激しく馬から落ちた。ワンカットで。

 

プロンプト:日本のアニメ風、夜空の花火の下で繰り広げられる憂いを帯びた情景。世界は幸せに満ちているが、祭りの真っ只中にあるこの美しい日本の町で、運命に翻弄される二人の主人公だけは例外だ。映画級の作画を誇る日本アニメ、日本語で会話するキャラクターのクローズアップショット、美しく流れるような手描きアニメーション。

 

プロンプト:宇宙飛行士のゴールデンレトリバー、ソラが、小さなジェットバックで推進しながら、銀河間の子犬をテーマにした宇宙ステーションの周りを浮遊している。美しい鏡面反射の光と彗星が空を飛び交い、レトロフューチャーな宇宙テーマの音楽がバックで流れる。犬の目に光がきらめく。犬は最初に宇宙ステーションに向かって推進し、ドアが開いて中に入る。その後、ショットが変わる。宇宙ステーション内部では無重力空間で無数のテニスボールが浮遊している。犬の宇宙飛行士ヘルメットが開き、ボールを掴む。35mmフィルムで撮影された映像では、犬の毛並みの複雑なディテールと質感が鮮明に映し出され、彗星の光が毛皮にきらめく。

 

プロンプト:男がバックフリップをする

 

プロンプト:体操選手が平均台で宙返りする。映画的

 

プロンプト:男が飛び込み台からキャノンボール飛び込みをする

 

プロンプト:男が、別の馬の上にいる馬に乗っている

 

プロンプト:バレーボールをしている人々のグループ

 

プロンプト:スケートボーダーがキックフリップを決める

 

プロンプト:イタリアのブラーノ島で、ダルメシアンが複雑な障害物コースを軽やかに歩き、走り、跳びながら進んでいく

 

 

従来の動画モデルは過度に楽観的である——テキストプロンプトを成功裏に実行するため、物体を変形させ現実を歪める。例えばバスケットボール選手がシュートを外すと、ボールが突然リングへテレポートすることさえある。Sora 2では、選手がシュートを外した場合、ボールはバックボードで跳ね返る。興味深いことに、モデルが犯す「ミス」は、Sora 2が暗黙的にモデル化している内部エージェントのミスであるように見えることが多い。まだ不完全ではあるが、物理法則に従う点では従来のシステムより優れている。これは有用な世界シミュレータにとって極めて重要な能力だ——成功だけでなく失敗もモデル化できなければならない。

制御性においても本モデルは飛躍的な進歩を遂げており、複数のショットにまたがる複雑な指示に従いながら、世界の状態を正確に維持できる。リアルな描写、シネマティックな表現、アニメ調のスタイルにおいて特に優れている。

 

プロンプト : ヴァイキングの戦いへ — 北海出撃 (10.0秒、冬の冷たい昼光 / 初期中世)...

 

プロンプト:日本のアニメ風に、白髪の英雄が眠っていた力を目覚めさせる。彼の体は青と黒の炎のようなオーラに包まれ、刻印が顔と体を覆うように広がっていく。深遠なる古代の力が遂に覚醒した…

 

プロンプト:スタジオジブリアニメ風のスタイルで、少年と犬が美しい雲が広がる草の生えた風光明媚な山を駆け上がり、遠くに村を見下ろす背景を描いてください。

 

プロンプト:日本のアニメ風で、雲と輝く星で満ちた限りなく明るい空の下での歓喜に満ちた情景…

 

 

汎用的な映像・音声生成システムとして、高度なリアリズムを備えた洗練された背景音響、音声、効果音を生成することが可能です。

プロンプト:明るいテクニカルシェルの登山服を着た二人の山岳探検家。氷で覆われた顔、切迫感で細められた目をし、雪の中で交互に叫ぶ。

 

プロンプト:タイトル — 頭上に灯る提灯、隔たり(10.0秒、実写モノクロ/祭りの夜)...

 

プロンプト:鯉のいる池に腰まで浸かりながら棒術の型を練習する武道家

 

プロンプト:水中スキューバダイバー、珊瑚礁の音

 

プロンプト:老教授が英語で話し、その後ドイツ語で話す

 

プロンプト:粘土細工の指揮者が粘土細工のオーケストラを指揮する

 

Sora 2には現実世界の要素を直接組み込むことも可能です。例えば、チームメンバーの動画を参照することで、モデルは外見や声を正確に再現しながら、Soraが生成したあらゆる環境にその人物を挿入できます。この機能は非常に汎用性が高く、人間、動物、物体などあらゆる対象に対応します。

プロンプト:ビッグフットは彼に本当に親切だ、少し親切すぎるくらい、妙に親切な感じだ。ビッグフットは一緒に遊びたがっているが、彼は遊びすぎたがる

 

プロンプト: @kendra を追加する。ただし、彼女は実際に飛べるようにする。

 

プロンプト:@daniel と @duxin の腕相撲対決、勝者を決めてください

 

プロンプト:ダチョウがパパの帽子を盗み、パパがそれを追いかける

 

プロンプト: @daniel がシマウマの大群が暴走する真っ只中でトランペットを演奏する

 

プロンプト: @rohan は暴れるダチョウに乗る

プロンプト: @rocket は超能力を持つスーパーヒーロー犬で、空を飛び回りニューヨーク市を救っている

 

このモデルは完璧とは程遠く、多くの誤りを犯す。しかし、動画データを用いたニューラルネットワークのさらなる拡張が、現実のシミュレーションに近づくことを裏付けるものである。

 

Sora 2の展開

物理世界で機能する汎用シミュレーションとAIシステムへの道程において、私たちはその過程で構築するモデルが人々に大きな楽しみをもたらすと考えています。

数ヶ月前、Soraチーム内でこの「自分をアップロード」機能を試した際、全員が夢中になりました。テキストメッセージから絵文字、音声メモへと進化したコミュニケーションの自然な延長線上にあると感じたのです。

そこで本日、Sora 2を搭載した新ソーシャルiOSアプリ「Sora」を公開します。アプリ内では、動画の作成、他者の生成物のリミックス、カスタマイズ可能なSoraフィードでの新動画発見、そして「カメオ」機能による自分や友人の登場が可能です。カメオ機能では、アプリ内で一度だけ動画と音声の記録を行い本人確認と外見のキャプチャを済ませれば、驚くほど精細な再現度で、あらゆるSoraシーンに自分を直接登場させられます。

先週、このアプリをOpenAI社内向けにリリースしました。すでに同僚から「この機能のおかげで社内で新しい友達ができた」という声が寄せられています。この「カメオ」機能を核としたソーシャルアプリこそが、Sora 2の魔法を体験する最良の方法だと確信しています。

 

責任あるサービス提供

ドゥームスクロール、依存症、孤立、現実世界最適化フィードへの懸念が最優先課題です。これに対する当社の取り組みをご紹介します。

ユーザーがフィードで見る内容を自ら管理できるツールと選択肢を提供します。OpenAIの既存大規模言語モデルを活用し、自然言語で指示可能な新種のレコメンデーションアルゴリズムを開発しました。また、ユーザーのウェルビーイングを定期的に確認し、フィード調整の選択肢を積極的に提供する仕組みを組み込んでいます。

デフォルトでは、フォロー中または交流のあるユーザーに偏ったコンテンツを表示し、モデルが「自身の創作のインスピレーション源として最も活用されそう」と判断した動画を優先表示します。フィード滞在時間の最適化は行っておらず、消費ではなく創作を最大化するよう明示的に設計されています。詳細は「フィード哲学」をご覧ください。

このアプリは友人との共有を前提に作られています。テスターから寄せられた圧倒的なフィードバックは、カメオ機能がこのアプリを他とは異なる楽しいものにしているという点です。実際に試してみないとその真価はわかりませんが、これは人々と交流する新しくユニークな方法です。友人と一緒に参加できるよう、招待制アプリとして展開しています。主要プラットフォームがソーシャルグラフから離れる中、カメオ機能はコミュニティを強化すると考えています。

ティーンの健全な成長を守ることは当社にとって重要です。フィード上で1日に閲覧できる世代数にデフォルト制限を設定するとともに、この年齢層向けのカメオ機能の権限を厳格化します。自動安全対策に加え、いじめ事例が発生した場合に迅速に対応できるよう、人間のモデレーターチームを拡充しています。ChatGPT経由でSoraのペアレンタルコントロール機能を提供開始します。これにより保護者は無限スクロール制限の解除、アルゴリズムによるパーソナライゼーションの無効化、ダイレクトメッセージ設定の管理が可能になります。

カメオ機能では、Soraを通じてご自身の肖像権をエンドツーエンドで管理できます。カメオの使用許可はご自身が決定し、いつでもアクセス権を撤回したり、カメオを含む動画を削除したりできます。ご自身のカメオを含む動画(他者が作成した下書きも含む)は、いつでもご自身で閲覧可能です。

本アプリでは、肖像使用に関する同意、出所管理、有害コンテンツ生成の防止など、数多くの安全対策に取り組んでいます。詳細は「Sora 2 安全対策文書」をご参照ください。

他のアプリの問題の多くは、ユーザーの幸福と相反する判断を促す収益化モデルに起因しています。現時点での唯一の計画は、利用可能な計算リソースに対して需要が過剰になった場合に、追加料金を支払って追加動画を生成するオプションをユーザーに提供することです。アプリが進化するにつれ、ユーザー幸福を最優先目標としつつ、方針の変更についてはここで透明性を持って共有していきます。

この旅は始まったばかりですが、Sora 2でコンテンツを創造・リミックスする強力な手段の数々を通じて、共創体験の全く新しい時代の幕開けとなることを確信しています。現在のプラットフォームと比較して、より健全なエンターテインメントと創造性の場となることを楽観視しています。どうぞお楽しみください 🙂

 

Sora 2 の提供状況と今後の予定

Sora iOS アプリは現在ダウンロード可能です。アカウントへのアクセスが開始された際にプッシュ通知を受け取るよう、アプリ内で登録できます。本日より米国とカナダで初期展開を開始し、早期に他国へ拡大する予定です。招待を受け取った後は、sora.com⁠からもSora 2にアクセス可能になります。Sora 2は当初無料で提供され、ユーザーがその機能を自由に探索できるよう十分な利用制限が設けられますが、計算リソースの制約は依然として存在します。ChatGPT Proユーザーは、sora.comで実験的な高品質モデル「Sora 2 Pro」も利用できます。API経由でのSora 2提供も計画中です。Sora 1 Turboは引き続き利用可能で、作成済みのコンテンツは全てsora.com⁠ライブラリに保存されます。

動画生成モデルは急速に高度化しています。汎用的な世界シミュレーターとロボットエージェントは社会を根本的に変革し、人類の進歩を加速させるでしょう。Sora 2はその目標に向けた重要な進展です。OpenAIのミッションに沿い、これらのモデルが開発される過程で人類が恩恵を受けることが重要です。Soraが世界に多くの喜び、創造性、つながりをもたらすと確信しています。

— Soraチームより

 

主要被写体とビジュアル
第一印象:鋸歯状の氷の尖塔を裂きながら飛翔する竜、翼端の渦が雪煙を巻き上げる。第二印象:砕けた氷河のシートがコバルト色のフィヨルドへ崩れ落ち、琥珀色の太陽の縁が鱗の霜に接吻する。表情は捕食者の静寂/労せずして発揮される力を物語る。

フォーマットとルック
5.0秒;4K;180°シャッター;大型フォーマットデジタルセンサーエミュレーションによるシャープなマイクロコントラスト;極細粒状感;雪の輝きに抑制されたハレーション;ゲートウィーブなし。

レンズとフィルター
メイン:50mm球面レンズをノーズマウント型ジャイロ安定化空撮プラットフォーム搭載(平行追尾+微内側カーブ)。フィルター:ブラックプロミスト1/8;円偏光フィルターで雪の眩しさを抑えつつ鏡面反射の輝きを保持。

グレーディング/カラーパレット
ハイライト:クリーンな氷白、クールなロールオフ;中間調:鋼青の氷河と淡いシアンの空気;シャドウ:スレート/ティール、クレバス細部を保持;境界分離のためのドラゴンエッジに温かな琥珀色の縁取り;霜/鱗に密着した鏡面反射。

照明と雰囲気
夕暮れ時の低角度クロスキー照明;下降気流が巻き上げるスピンドリフト;奥行きを演出する薄い凍結ヘイズ;後方に断続的に発生する氷塵の噴出;竜の努力に伴うかすかな吐息の蒸気。

ロケーション&フレーミング
聳え立つセラック群と刃のような稜線;カメラは中高度で竜と並走、氷河の斜め構図がフィヨルドへ引き戻す;前景の氷のフィンが近くを通過し視差効果;人造構造物なし。

衣装/小道具/車両備考
該当なし(生物)。表面状態:つや消し角質隆起、先端部に微細な霜状の模様を伴う半虹彩鱗板。

音響
高高度の風切音、翼膜の打下毎に響く雷鳴、セラックからの結晶氷のチクッ/軋み音、遠方の氷河崩壊轟音。竜の短く荒い吐息/唸り:「ルッ—」(1秒未満)。音楽なし—純粋なダイジェティックな畏怖。

最適化ショットリスト(1ショット/5.0秒)
0.0–5.0 — 「平行稜線カーブ」(50mm、ノーズマウント空撮/微内弧&マイクロプッシュ)
氷の尖塔が連なる回廊を縫うように進む竜にカメラが追従。翼端の渦が粉雪をリボン状に巻き上げる。崩落した氷塊が遥か下方へ落下し、粉塵の噴煙を巻き起こす。カメラがゆっくりと接近——鱗の質感、琥珀色の縁取りが鮮明に映し出される——竜がフィヨルドへ向けて旋回、尾をハサミのように動かし、氷河に広がる影を落とす。
目的:決定的な一撃で神話的スケールと触覚的リアリズムを表現——速度、質量、そして根源的な冷気。

カメラノート(撮影意図)
50mmレンズは生物の存在感と景観のスケール感をミニチュア化せず両立;平行移動+内側への弧を描く軌道で速度感と形態を表現;微細なプッシュショットと最強のダウンストロークで力強い強調を挿入;偏光フィルターでグレアを抑制しつつ輝きを保持;逆光/縁光がシルエットを彫刻;ニアミス状態の氷の突起が視差による速度の暗示を提供。

仕上げ
極細粒子(約15%);雪面の鏡面反射でハレーション最小限;青の信頼性と黒の深みを保つ穏やかなプリントエミュレーション;翼の打撃感を維持しつつ氷河崩壊の轟音をマスクしないマルチバンドダイナミクス;ポスターフレーム:太陽に照らされたセラックを横切る竜、飛沫が流れ、奥には紺碧に輝くフィヨルド。

コメントを残す