Googleの動画生成AI「Veo」が発表されています。高解像度で1分を超えるビデオ生成が可能なモデルとのことです。また、画像生成AIの「Imagen 3」も発表されました。OpenAIのSoraと比べてどうなるのか興味深いです。
https://deepmind.google/technologies/veo/
Veo
最も高性能なジェネレーティブ・ビデオ・モデル
Veoは、これまでで最も高性能なビデオ生成モデルです。高品質の1080p解像度のビデオを生成し、1分を超えることも可能です。
プロンプトのニュアンスやトーンを正確にとらえ、タイムラプスや風景の空撮など、あらゆる種類の映画的効果のプロンプトを理解するなど、これまでにないレベルのクリエイティブなコントロールを提供します。
私たちのビデオ生成モデルは、誰もがビデオ制作にアクセスできるツールの作成を支援します。ベテランの映画制作者であれ、クリエイターを目指す人であれ、知識を共有したい教育者であれ、Veo はストーリーテリングや教育などの新しい可能性を解き放ちます。
今後数週間で、これらの機能の一部が、labs.google の新しい実験的ツールである VideoFX を通じて、一部のクリエイターに提供される予定です。現在、ウェイティングリストに参加することができます。
将来的には、Veo の機能の一部を YouTube Shorts やその他の製品にも提供する予定です。
ロンプト: 一人のカウボーイが馬に乗って広い平原を横切っている
プロンプト: 木々が立ち並ぶ郊外の住宅街を早回しで撮影。澄み切った青空の昼間。飽和色、高コントラスト
プロンプト: バーベキューで炎とともに焼かれるチキンとピーマンのケバブの極端なクローズアップ。浅い焦点と軽い煙
プロンプト: 北極の空を舞うオーロラのタイムラプス、瞬く星、雪景色
プロンプト: 岩の崖の上にそびえ立つ灯台の空撮、その烽火が夜明けを切り裂き、眼下の岩に波が打ちつける
言語と視覚の理解を深める
首尾一貫したシーンを生成するには、生成ビデオ モデルがテキスト プロンプトを正確に解釈し、この情報を関連する視覚的参照と組み合わせる必要があります。
自然言語と視覚的セマンティクスの高度な理解により、Veo はプロンプトに忠実な動画を生成します。フレーズのニュアンスとトーンを正確にとらえ、複雑なシーン内の複雑なディテールをレンダリングします。
プロンプト: 水中で脈打つたくさんの斑点クラゲ。その体は透明で、深海で光っている
プロンプト: ヒマワリが開くタイムラプス、背景は暗い
プロンプト:通りの水たまりの浅い被写界深度での極端なクローズアップ。明るいネオンサインで賑わう近未来的な東京の街を映し出す、夜、レンズフレア
映画制作のためのコントロール
海岸線の空撮にカヤックを追加するなど、入力ビデオと編集コマンドの両方が与えられた場合、Veo はこのコマンドを最初のビデオに適用して、新しい編集ビデオを作成できます。
プロンプト: ハワイのジャングルの海岸線をドローンで撮影、晴れた日
プロンプト: ハワイのジャングルの海岸線に沿ってドローンで撮影、晴れた日。水中のカヤック
さらに、マスク編集をサポートしており、ビデオとテキスト プロンプトにマスク領域を追加すると、ビデオの特定の領域を変更できます。
また、Veo では、テキスト プロンプトとともに画像を入力してビデオを生成することもできます。テキスト プロンプトと組み合わせて参照画像を提供することで、Veo は画像のスタイルとユーザー プロンプトの指示に従ったビデオを生成します。
プロンプト: ニット ウール セーターを着たアルパカ、グラフィティの背景、サングラス
プロンプト: ビートに合わせて踊るアルパカ
このモデルはビデオクリップを作成し、60秒以上に延長することもできる。これは、1つのプロンプトから、または一連のプロンプトが与えられて、一緒にストーリーを語ることによって可能です。
プロンプト
明るいネオンサイン、空を飛ぶ車と霧、夜、レンズフレア、ボリューメトリックな照明。
明るいネオンサイン、空に浮かぶ宇宙船、夜、ボリューメトリック・ライティング。
トップスピードで走る車のネオンホログラム、光速、シネマティック、驚異的なディテール、ボリューメトリック・ライティング。
車はトンネルを出て、現実の香港の街に戻る。
ビデオフレーム間の一貫性
ビデオ生成モデルにとって、ビジュアルの一貫性を維持することは難しい課題です。キャラクタ、オブジェクト、あるいはシーン全体が、フレーム間で不意にちらついたり、ジャンプしたり、変形したりすることがあり、視聴体験が妨げられます。
Veoの最先端の潜伏拡散トランスフォーマーは、このような不一致の外観を低減し、キャラクタ、オブジェクト、およびスタイルを現実と同じように維持します。
プロンプト: 静寂に包まれた山の風景のパンニングショット。カメラは雪を頂いた峰々、花崗岩の岩、空を映す透き通った湖をゆっくりと映し出す。
プロンプト: 中央ヨーロッパの路地のムーディーなショット。フィルム・ノワール映画のような白黒のハイコントラスト、ハイディテール。
プロンプト: サバンナを歩く複雑な模様のかぎ針編みの象
長年のビデオ生成研究に基づく
Veoは、Generative Query Network (GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiere、さらに当社のTransformerアーキテクチャとGeminiなど、長年にわたる生成ビデオ モデル研究を基盤としています。
また、Veoがより正確にプロンプトを理解し、それに従うことができるように、トレーニングデータに含まれる各ビデオのキャプションの詳細を追加しました。また、パフォーマンスをさらに向上させるため、モデルはビデオの高品質で圧縮された表現(レイテントとも呼ばれる)を使用し、より効率的になりました。これらのステップにより、全体的な品質が向上し、動画の生成にかかる時間が短縮されます。
デザインによる責任
Veoのようなテクノロジーを責任を持って世に送り出すことが重要です。Veoで作成された動画には、透かしを入れ、AIが生成したコンテンツを識別するための当社の最先端ツールであるSynthIDを使用して透かしが入れられ、プライバシー、著作権、および偏見のリスクを軽減するのに役立つ安全フィルターおよび暗記チェックプロセスを通過します。
Veoの将来は、一流のクリエイターや映画制作者との共同作業によってもたらされます。彼らからのフィードバックは、当社のジェネレーティブ・ビデオ・テクノロジーを改善し、より広範なクリエイティブ・コミュニティやその先の世界に利益をもたらすのに役立ちます。
映画監督ドナルド・グローバーと彼のクリエイティブ スタジオ、Gilga との共同作業のプレビュー。