Microsoft Researchが生成 AI によるインタラクティブなゲームをプレイできる「Quake II」のデモを公開しました。
ゲームプレイシークエンスを動的に生成しているとのことです。生成AIが毎フレーム描画してると考えるとかなり速いですね。サーバースペック気になる。
https://copilot.microsoft.com/wham?features=labs-wham-enabled
https://copilotlabs.microsoft.com/experiment/copilot-gaming-experiences/
コパイロットのゲーム体験
ゲームとAIの交差点における研究デモ
Copilot Labsで開催される、AIを活用した実験的なゲームプレイ体験へようこそ。Microsoft Research が構築した Muse World と Human Action Model (WHAM) を搭載したこの技術デモでは、生成 AI によるインタラクティブなゲームプレイのシミュレーション方法をいち早くご覧いただけます。
Copilot Gaming Experiencesは、AIが既存のものをベースにしながら、ゲームとのまったく新しい関わり方をどのように生み出すことができるかを探求する上で、実用的な一歩を踏み出したことを意味します。ゲームプレイをリアルタイムで生成することで、基盤となっているMuseは、Quake IIのような古典的なゲームを最新のAI技術によってどのように再構築できるかを示しています。
新しい遊び方を生み出すAI主導のインタラクションを体験しよう
このリアルタイム技術デモでは、Copilotが古典的なゲーム「Quake II」にインスパイアされたゲームプレイシークエンスを動的に生成します。入力するたびに、AIが生成する次のゲームの瞬間がトリガーされ、まるで従来のゲームエンジンで動作するオリジナルのQuake IIをプレイしているかのようです。この体験を楽しみ、感想を共有し、AIを活用したゲームプレイ体験の未来を形作る一助としてください。
注:現在、各デモセッションには時間制限があります。
Copilot Gaming Experiencesとは?
Copilot Gaming Experiencesは、Copilot Labsで最先端の研究を実現する、AIを活用した実験的なゲーム体験です。Microsoft Researchの革新的なWorld and Human Action Model(WHAM)技術をベースに構築されたCopilot Gaming Experiencesは、ゲームビジュアルを動的に生成し、プレイヤーの入力にリアルタイムで応答することで、従来のゲームエンジンに依存することなくインタラクティブなゲームプレイをシミュレートします。1分間の短い技術デモとして設計されており、次世代のAIゲーム体験を垣間見ることができます。
WHAMとは?その仕組みは?
Copilot Gaming Experiencesは、ゲームプレイのビジュアルを動的に作成し、プレイヤーの行動をリアルタイムでシミュレートできる、当社の画期的なジェネレーティブAIモデルであるWorld and Human Action Model(WHAM)です。マイクロソフト・リサーチによるWHAMの開発は、科学雑誌『Nature』に最近掲載され、研究と実世界の製品イノベーションを融合させる当社の能力において、重要な一歩を踏み出したことを示しています。
Copilot Labsではどのような体験ができますか?
この一口サイズのデモでは、Quake IIにインスパイアされたインタラクティブな空間に引き込まれ、AIが没入感のあるビジュアルと反応の良いアクションをその場で作り出します。これは、ゲームとインタラクトするまったく新しい方法を垣間見る画期的なもので、最先端の研究を素早く説得力のあるプレイ可能なデモに変えています。
Copilot Labsの初期体験ではどのようなゲームが利用できますか?
Copilot Labsの初期体験版では、Quake IIのゲームプレイを基にトレーニングされたCopilot Gaming Experiencesモデルを使用しています。
このデモにはどのようにアクセスできますか?
Copilot Labsの専用ウェブページからアクセスできます。デモはキーボード操作と入力に依存しているため、デスクトップ専用に設計されています。
モバイルデバイスでも体験できますか?
現在のところ、ご利用いただけません。効果的な操作には物理的なキーボードが必要なため、実験的な技術デモはデスクトップ用ブラウザに最適化されています。
ゲームの操作方法は?
ゲームはキーボード入力で操作します。
- 移動: 移動にはWASDを使用します(左スティックをシミュレートしています)
- 周囲を見渡す: 矢印キーで視界を調整します(右スティックに相当)
- ジャンプ: スペースキーを押す
- しゃがむ:Cキーを押す
- 攻撃:Fキーを押す
この技術デモは商用または企業で利用できますか?
Copilot Labsの技術デモは、消費者がCopilot Gaming Experiencesを試すためのものです。ただし、基礎となるCopilot Gaming Experiencesの研究モデルは、開発者がAzure Foundryで試すことができます。
WHAMM!インタラクティブ環境のリアルタイム世界モデリング
本日、Copilot Labsでインタラクティブなリアルタイムのゲームプレイを体験できるようになりました。このリンクにアクセスして、Museを利用したAIによるQuake IIのゲームプレイをお楽しみください。
私たちは何をしているのか?
Museは、マイクロソフトのビデオゲーム用ワールドモデルのファミリーです。2月に発表したMuseと、最近Natureに掲載されたWorld and Human Action Model(WHAM)に続き、私たちのモデルのリアルタイムプレイ可能な拡張を紹介します。我々のアプローチ WHAMMとは、World and Human Action MaskGIT Model(WHAMと発音し、Mは発音しません。つまり、キーボードやコントローラーのアクションを通してモデルとインタラクションでき、そのアクションの効果をすぐに見ることができます。
何が変わったのか?
ブリーディングエッジでトレーニングした最初のWHAMであるWHAM-1.6Bのリリース以来、私たちは全体的な経験に影響する多くの点を変更し、改善してきました。
- まず第一に、我々は生成速度を改善しました。WHAMMは1秒間に10フレーム以上の画像を生成することができ、リアルタイムのビデオ生成が可能です。対照的に、WHAM-1.6Bは1秒間に約1枚の画像を生成することができます。
- WHAMMのレシピは、新しいゲームへの移植に成功しました: Quake IIです。(我々はBleeding edgeで訓練されたWHAMMモデルの以前のバリエーションをここで予告した。Bleeding Edgeと比較すると、Quake IIはより速いペースのファーストパーソンシューティングゲームで、プレイ方法は大きく異なります。
- 新しいゲームへの移行は、WHAMMのトレーニングに必要なデータ量を大幅に減らすことで可能になりました。これは、より意図的なデータ収集とキュレーションによって達成され、その結果、WHAMMのトレーニングに使用されたデータはわずか1週間でした。これは、WHAM-1.6Bのトレーニングに使用した7年分のゲームプレイから大幅に減少したことになります。これは、プロのゲームテスターと協力してデータを収集し、意図的なゲームプレイで1つのレベルに集中することで、高品質で多様なデータを十分に収集することができたからです。
- 最後に、WHAMMの出力解像度を2倍にし、640×360にしました(WHAM-1.6Bでは300×180でした)。これは、画像エンコーダー/デコーダーにわずかな変更を加えるだけで可能であることがわかりましたが、その結果、全体的な体験の知覚品質が大きく向上しました。これを達成するために、ViTのパッチ・サイズを単純に20(10から増加)に増やし、トークンの数をほぼ同じに保つことができました。
WHAMMアーキテクチャ
リアルタイムの体験を可能にするために、我々はモデリング戦略を変更しました。WHAM-1.6Bが一度に1つのトークンを生成していた自己回帰LLMのようなセットアップから、MaskGIT [2]のセットアップに移行することで、望むだけ多くの世代で画像のすべてのトークンを生成できるようになりました。
図1:WHAMの概要。WHAMはまず、画像、アクション、画像、アクションなどのシーケンスからなるゲームプレイデータをトークンの長いシーケンスにトークン化します。次に、デコーダのみの変換器を訓練し、シーケンスの次のトークンを予測します。左:ViT-VQGAN [3]を使用して各画像をトークン化。右: 得られたトークン列に対して変換器を学習する。WHAMの詳細については、私たちのブログ記事(新しいタブで開く)とNatureの記事(新しいタブで開く)を参照してください。
WHAMのセットアップの概要を図1に示す。左側では、Vit-VQGAN [3]を用いて画像をトークン化する。右側では、デコーダのみの変換器を用いて新しいトークン列をモデル化する。LLMのように、シーケンス内の次のトークンを予測するように学習されます。詳細は論文[1]を参照。
WHAMMアーキテクチャの概要を図2に示す。左図は、WHAMと同様に、まず画像をトークン化します。この特定の設定では、各640×360画像が576トークンに変換されます(WHAMでは各300×180が540トークンに変換されました)。WHAMは一度に1個のトークンを生成するので、画像に変換するのに必要な540個のトークンを生成するには長い時間がかかる。対照的に、MaskGITスタイルのセットアップでは、画像のすべてのトークンを、必要なだけ少ないフォワードパスで生成できます。そのため、リアルタイムで画像トークンを生成することができる。通常、MaskGITのセットアップでは、画像のすべてのトークンがマスクされた状態から開始し、そのひとつひとつについて予測を生成します。これは、画像に対する大まかで準備の整った最初のパスを作成することと考えることができます。その後、トークンのいくつかを再マスクし、再度予測し、再マスクする、というように繰り返します。この繰り返しにより、画像予測を徐々に洗練させていくことができる。しかし、画像生成にかけられる時間には厳しい制約があるため、大きな変換器を何回通過させるかは非常に限られています。
図2:WHAMMの概要。左:WHAMと同様にViT-VQGANを用いて各画像をトークン化する。中央: バックボーン変換器はコンテキスト、9つ前の画像とアクションのペアを取り込み、次の画像のトークンを予測する。右: Refinement変換器は、画像トークンの予測とマスキングを繰り返すことによって、画像トークンの予測を繰り返し改良する[2]。
これを回避するために、WHAMMでは2段階のセットアップを採用している。まず、図2の中央に示す「バックボーン」変換器(~500Mパラメータ)がある。このモジュールはコンテキスト(この場合、9つ前の画像とアクションのペアのトークン)を入力とし、画像のすべてのトークンに対する初期予測を生成する。次に、図2の右側に示すように、画像のトークンに対する初期予測を改良する「改良」変換器を別に用意します。このモジュールはサイズが小さく(~250M パラメータ)、また入力として受け取るトークンの数が大幅に少ないため、はるかに高速に実行できます。これにより、最終的な予測をより良いものにするために、MaskGITを何度も繰り返し実行することができます。Refinementモジュールがコンテキストからの必要な情報を確実に利用できるようにするため、(Backbone変換器が行うように)コンテキスト・トークンを直接条件付けする代わりに、より大きなBackbone変換器の出力から、より小さな「条件付け」トークンのセットを入力として受け取ります(図2のピンク色で示されています)。
Quake II WHAMM
そして楽しいのは、モデルの中でゲームのシミュレーション版をプレイできることです。わずか6週間前にWHAM-1.6Bがリリースされた後、私たちはすぐに新しいゲーム用にWHAMMをトレーニングするプロジェクトに着手しました。これは、ゼロからのデータ収集、以前のWHAMMプロトタイプの改良、そして画像エンコーダ/デコーダとWHAMMモデルの実際のトレーニングの両方を必要としました。
どのようなデータを収集すべきか(どのようなゲーム、テスターはどのようにゲームをプレイすべきか、ワールドモデルのトレーニングにはどのような行動が必要か、など)を計画し、モデルのトレーニングに必要なデータを実際に収集し、準備し、クリーニングすることで、チームの総力を結集しました。
最初の喜びは、モデルがシミュレートしている世界の中でプレイできたことだった。歩き回ったり、カメラを動かしたり、ジャンプしたり、しゃがんだり、シュートしたり、オリジナルのゲームと同じように樽を爆破したりもできた。 さらに、私たちのデータにはQuake IIが登場するため、Quake IIのこのレベルに隠された秘密のいくつかを発見することもできる。
図3:Quake IIの最初のレベルにある「シークレット」エリアの1つを示す、社内研究用プロトタイプポータルのビデオ。
また、モデルのコンテキストに画像を挿入し、その変更をシーンに持続させることもできます。
図4: オブジェクトをワールドに挿入し、そのオブジェクトとインタラクトできるようにした例。これはこのビデオの最後にあるもので、Bleeding Edgeで訓練されたWHAMMにパワーセルを挿入しています。
限界
私たちは、モデルの中でゲームのシミュレーション版をプレイすることは信じられないほど楽しいと感じているが、もちろん、現在のアプローチには限界と欠点がある。
最も重要なのは、これが生成モデルであるということだ。したがって、私たちは、そのデータがトレーニングされた実際の環境に対する近似を学習しているのだ。オリジナルのQuake IIゲームをプレイする実際の経験を完全に再現するつもりはありません。これは、現在のMLアプローチを使って構築できるものを研究するためのものです。ゲームをプレイするのとは対照的に、モデルをプレイすると考えてください。
敵とのインタラクション。敵キャラクターとのインタラクションは、現在のWHAMMモデルの大きな改善点です。多くの場合、彼らは画像ではぼんやりと表示され、彼らとの戦闘(敵/プレイヤーの両方に与えられるダメージ)は正しくないことがあります。全体のエクスペリエンスはオリジナルの環境に100%忠実ではありませんが、敵はプレイヤーが交流する主要なものの1つなので、この側面は特に目立ちます。
コンテキストの長さ。私たちの現在のモデルでは、コンテキストの長さはゲームプレイの0.9秒(10fpsで9フレーム)です。つまり、このモデルは、これよりも長い間、視界から外れたオブジェクトを忘れることができますし、忘れます。これは、一瞬床を見てから上を見返すことで、敵を倒したりスポーンさせたりできる楽しみの源にもなります。あるいは、空を見上げてから下を向くと、マップをテレポートできる。これらは模範プレイの一例である。
カウント。体力の数値は必ずしも超信頼できるものではない。特に、カウントはいつも幻想的に機能するわけではない。これはヘルスパックや敵とのインタラクションに影響することがある。
体験できる範囲は限られている。今のところ、WHAMMはQuake IIの一つのレベルの一部分でしかトレーニングできない。もしあなたがレベルの終わり(エレベーターを降りる)に到達したら、その時点でデータの記録を止め、レベルを再開したため、世代がフリーズします。
遅延。WHAMMを広く誰でも試せるようにしたことで、アクションに顕著なレイテンシが発生しました。
今後の課題
このWHAMMモデルは、リアルタイムに生成されるゲームプレイ体験の初期の探求である。私たちはチームとして、この種のモデルによってどのような新しい種類のインタラクティブ・メディアが可能になるかを探求することに興奮している。私たちが上記の制限を強調するのは、この体験の楽しさを奪うためではなく、将来のモデルが改善される可能性のある領域に注意を向けさせるためであり、新しい種類のインタラクティブ体験を可能にし、ゲーム制作者が語りたい物語に命を吹き込む力を与えるためである。