3dsMaxのUSDに関する記事を見かけたのでメモ。
VFX アーティストでパイプラインの開発も手がけるChangsooさんのブログです。USDの解説はMayaを中心に書かれることが多いので、3dsMaxで書かれてるのは理解しやすくて助かります。3dsMaxのUSDは、現状エクスポートを中心に開発されていて、インポートはまだ発展途上のようですね。
3dsMaxのUSDに関する記事を見かけたのでメモ。
VFX アーティストでパイプラインの開発も手がけるChangsooさんのブログです。USDの解説はMayaを中心に書かれることが多いので、3dsMaxで書かれてるのは理解しやすくて助かります。3dsMaxのUSDは、現状エクスポートを中心に開発されていて、インポートはまだ発展途上のようですね。
「アニメーションのデモリールを制作するための10の秘訣」という記事が公開されています。リール作成の参考になりそうです。
https://www.cgchannel.com/2023/09/10-tips-for-crafting-an-animation-demo-reel/
優れたデモリールはアニメーターとして最初の仕事を獲得する鍵です。DNEGアニメーションのリン・ハンは、彼自身の学生リールの例を用いて、勝つリールを作成するための10の秘訣を紹介します。
プロアニメーターとしてのキャリアを追求する決心をしたとき、私は2年以上、技術を学び、アニメーションのスキルを向上させることに専念しました。幸いなことに、私のデモリールは貴重な財産となり、業界の大手企業でのポジションを確保するのに役立ちました。EA、DNEG、アゴラ・スタジオ、ウォルト・ディズニー・アニメーション・スタジオです。
この記事では、あなた自身がインパクトのあるデモリールを作成し、業界で仕事を得る可能性を高めるために役立つ、私のインサイダーヒントを紹介します。
あなたがすでに有能な3Dアニメーターであることを前提にしているので、最初のいくつかのヒントでは、リールの構成方法の基本や、リールでアピールできるその他の有用なスキルについて説明する。記事の後半では、私自身の学生デモリールの例を用いて、含めるべき最適なアニメーションの種類について説明します。
私のリールには、この技術に対する私の情熱が反映されており、この記事で共有される洞察とともに、このエキサイティングな分野への進出を目指す人々のリソースとなることを願っています。
あなたの名前、Eメールアドレス、電話番号、リールのタイトルを明記しましょう。採用担当者に、あなたが誰なのかを知るために最後までスクロールさせないこと。カバーページは3~5秒以内にまとめましょう。
自分の仕事を紹介するときは、クリップ中に画面上の簡単な説明を入れることを検討しましょう。これは、プロジェクト名や会社名、あなた自身の具体的な貢献度など、重要な情報を提供するアンダーサードやオーバーレイで行うことができます。これらの詳細は、あなたのアニメーションの文脈を提供し、視聴者があなたの役割や功績を理解するのに役立ちます。
視聴者の興味を維持するために、各アニメーションの長さは8~20秒の間に収め、リール全体の長さは1~2分を目安にしましょう。
長編アニメでは通常、アニメーターはアニメーションを作ることだけに集中します。カメラレイアウトはレイアウトアーティストが作成します。しかし、それでもカメラ用語を学ぶ必要があります。
三分割法や被写界深度をよく理解することで、より視覚的に魅力的で、映画のようなシーンをリールに描くことができるようになります。また、カメラアングルや動きを正しく選択することで、アニメーションのストーリー性を高め、感情を伝え、雰囲気を作り、観客の注意を誘導することができます。
YouTubeには、カメラ用語に関する動画がたくさんあります。下の動画をチェックするか、「Camera Language in Film Industry(映画業界におけるカメラ用語)」などのキーワードで検索してみてください。
3Dアニメーターにとっても、絵を描くことは重要なスキルであり、アイデアを素早くスケッチし、さまざまなポーズや動きを試すことができます。
これによって、3Dアニメーションのより時間のかかるプロセスに進む前に、ショットを計画しアイデアを洗練させながら、より速く反復することができます。また、アニメーションのような業界では、視覚的なコミュニケーションの方が、声によるコミュニケーションよりも優れていることがあります。
デモリールの焦点は3D作品であるべきですが、2D作品を含めることはプラスになります。私自身のリールでは、最終的な3Dアニメーションと一緒に、下のようなショットのプランニングに使ったラフな2Dアニメーションのサムネイルバージョンを載せています。
売れっ子アニメーターの作品を分析することで、魅力的な作品を作るためにどんなテクニックを使っているのか、効果的なデモリールを作るためにどんな要素を盛り込んでいるのかを特定することができます。これは、あなた自身のスキルを向上させ、目立つリールを作成するのに役立ちます。
働きたい会社に採用されたアニメーターが作ったリールを研究します。例えば、Maarten Lemmensのリールは、彼がDreamWorks Animationに就職するのに役立ちました。トニー・キムとギ・ドゥオンのリールは、ピクサーへの入社に役立った!ドンホ・キムは、ソニー・ピクチャーズ・イメージワークス、ピクサー、ルーカスフィルムでインターンをした。
スタジオはキャラクターの動きや表情を通して、感情や個性を効果的に伝えられるアニメーターを高く評価するため、デモリールでこのスキルを示すことは非常に重要です。次の6つのヒントでは、そのために使うべきコンテンツの種類を探ります。なお、これらの要素をすべて盛り込むことは有益ですが、必須ではありません。最も重要なのは、リールの中であなたの絶対的なベスト作品をフィーチャーすることです。
また、3Dアニメーター、特に大手スタジオの仕事に応募する場合、自分でキャラクターリグを作れることを示す必要はないことを覚えておいてください。他のアーティストがオンラインで公開しているストックキャラクターを使っても構いません。
私は、Kiel Figgins、Ramon Arango、Wonderwell Studios、Jean-Denis Haas(Animation Buffet)が作成したリグをお勧めします。
ウォーク・サイクルは、キャラクター・アニメーションの要と見なされることが多いので、少なくともキャリアの初期には、あなたのリールに素晴らしいウォーク・サイクルを入れることが重要です。説得力のある歩行は、脚、腕、胴体、頭など、さまざまな体の部位の複雑な動きを伴うため、ボディメカニクスを深く理解する必要があります。
歩き方をアニメーション化するのは簡単な作業のように見えるかもしれませんが、多くの人が思っている以上に複雑で、特に若いアニメーターにとっては難しい作業です。キャラクターにはそれぞれ個性があり、それを表現するために特定の歩行サイクルが必要なのです。おとぼけであろうと、無愛想であろうと、野蛮であろうと、その歩行サイクルはその個性を鮮明に反映したものでなければいけません。
例えば、ディズニーにいた頃『ラーヤと龍の王国』のトンをアニメートする機会がありました。やりがいのある経験でしたが、トンの個性を彼の歩行サイクルに組み込むことができました。下のビデオでは、トンが幸せで満足しているのが伝わってきます。多分、彼はちょうど家事を終えて、妻と家族が待っている家に帰る途中なのでしょう。
パントマイムは、登場人物が言葉を使わずに自己表現するアニメーションの一形態です。ボディランゲージ、表情、身振り手振りのみでストーリーを伝えます。
ノンバーバル・アニメーションをリールに盛り込むことで、キャラクターの感情や意図を効果的に表現する能力が浮き彫りになります。また、キャラクターの重さやバランス、環境との相互作用を強調し、キャラクターの身体性を伝える能力もアピールできます。
私のデモリールのクリップは、TikTokで見たダンス動画をもとにアニメーションを作ることを思いつきました。しかし、インスピレーションと盗作を区別することは重要です。ユーモアをTikTokのオリジナル・クリップ以上に押し出すために、私はマイケル・ジャクソンのダンス・クリップを研究し、自分のアニメーションに取り入れられるポーズをもっと探しました。
演技を通してさまざまな感情を伝えられることは、アニメーターにとって本当に重要なスキルです。感情レベルでキャラクターに親近感を持たせることができます。台詞には、キャラクターの口と話し言葉を一致させるリップシンクも含まれます。
このアニメーションでは、キャラクターを大きく動かしてポーズを変えるのではなく、彼らの呼吸をアニメーション化し、観客が彼らとつながるための静かな瞬間を作ることに集中しました。これは挑戦的なアプローチであり、私の細部へのこだわりと、キャラクターが常に動いていなくてもコミュニケーションできる方法についての理解をアピールするのに役立ちました。
複数のキャラクター間のインタラクションをアニメーション化することは、1人のキャラクターをアニメーション化するよりも困難です。このようなアニメーションをデモリールに盛り込むことで、複雑なシナリオを処理する能力を証明することができます。
さらに、アニメーターはエンターテイナーである必要があります。感情やアイデアをユーモアを交えて伝えることができれば、観客を飽きさせないことができますし、インタラクションはそのスキルを証明する良い方法です。
このアニメーションでは、キャラクターはあることをしているが、実は別のことを考えています。歯科医は自分の仕事に集中しているはずですが、明らかに自分の中の妄想(デート)に気を取られているます。
映画では、アニメーターが人間以外のキャラクターのアニメーションに挑戦することがよくあります。
下のクリップにあるクモのリグに出会ったとき、私は新しいアニメーションのスタイルを探求し、自分の能力をコンフォートゾーンを超えて伸ばすチャンスだと思いました。ボディランゲージと表情豊かな目に大きく依存するこのリグを使ったアニメーションは、緊張を強いられましたが、同時に信じられないほど爽快でもありました。この経験を通して、型にはまらない方法で観客を楽しませる自分の能力を証明することができました。
映画、特にアニメーション映画には、動きが大きく予想外のおふざけキャラが登場することが多いです。アニメーターとして、そのようなキャラクターを扱うのはとてもエキサイティングです。
下のクリップのトカゲは、ポーズがコロコロ変わるので、これまで手がけたアニメーションの中で最も難易度が高いです。インスピレーションを得るために、私は『アイス・エイジ4』のバックを参考にし、理想的なポーズのサムネイルをスケッチした。最終的なアニメーションは最初のイメージから変わりましたが、ストーリーとキャラクターは2Dの探求に忠実です。
さまざまなポーズを模索し、より良いアイデアが浮かんだらそれを放棄するということを繰り返しました。そうすることで、時間はかかったが、より良いアニメーションを作ることができました。そして私は、粘り強さ、そして最も重要なことですが、自分のアイデアに固執しすぎないことの大切さを学びました。
著者 リン・ハンはDNEG、ディズニー、EA、アゴラ・スタジオで活躍したアニメーター。『Wish』、NetflixのTVシリーズ『How to Train Your Dragon』、金鶏賞を受賞した長編アニメ『The Wind Guardians』などを手がける。ルーキーアワード3Dアニメーション部門優秀賞連続受賞。ウェブサイト|LinkedIn|Vimeo|Instagram
VFXにおけるAI、機械学習に関する記事が公開されていたのでメモしておきます。
https://www.fxguide.com/fxfeatured/the-art-and-craft-of-training-data-yes-training-data/
機械学習(ML)は、VFXのさまざまな問題を解決するためのアプローチとして注目を集めています。しかし、MLがVFXのために何ができるかが注目される一方で、MLソリューションのトレーニングデータを作成することに焦点を当てたVFXの新しい分野も存在します。Houdini、Nuke、その他多くのVFXツールは、トレーニングデータの生成にクリエイティブに使用されており、この傾向はさらに拡大することが予想されます。より深い理解を得るためには、MLプログラムの根本的な性質を調べる必要があります。
機械学習ソリューションを作る前に、解決すべき問題と、MLアプローチが機能するために必要なことを理解することが不可欠です。特に、どのようなデータがすでに世の中に存在しているのか、そしてそのデータを使って問題を解決できるのか、ということです。一見すると、可能な限り大量の "ground truth "や完全な例が欲しいだけだと思われるかもしれないが、それは現代のMLを効率的に訓練する方法ではありません。
教師あり学習データと教師なし学習データは、機械学習で使われる2種類のデータです。教師あり学習データは、機械学習モデルの学習に使われるラベル付きデータです。つまり、入力データには正しい出力がラベル付けされ、モデルは入力データに基づいてこれらの出力を予測するように学習しkます。一方、教師なし学習データは、機械学習モデルの学習に使用されるラベル付けされていないデータです。この場合、モデルは、何を探すべきかについての特別なガイダンスなしに、データのパターンと関係を学習することを意味します。
教師あり学習データと教師なし学習データにはそれぞれ長所と短所があり、そのどちらを選択するかは、解決しようとする特定の問題と利用可能なデータに依存します。しかし、MLに詳しくない人にとっては、どちらの場合もデータが多ければ多いほど良いと思われがちです。そうではありません。
どちらのMLモデルにも、データをキュレーションするためのアートとサイエンスがあります。 例えば、オブジェクトのテクスチャを完全に「間違った」ものに変えると、ニューラル解を構築する際に、学習データをよりジオメトリに集中させ、表面特性から偏らせる効果があります。植物の葉を識別する分類器があったとして、その植物の品種を特定する最良の手がかりとなるのは、本当は葉の形状やエッジの詳細であることがわかっているとします。データセットのサブセットを作成し、表面特性を「低く評価」することで、自動車の塗料で作られたような、奇妙な表面特性を持つ葉のセットを混ぜることができます。自然界の葉が車の塗料で栽培されることはないので、これは明らかに誤りですが、MLから見れば植物の品種を識別するために表面特性に頼ることができなければ、葉の形状により傾倒するでしょう。つまり、VFXアーティストが車の塗料で植物を作り、MLのソリューションを指示したりキュレーションしたりするために雇われる可能性があります。 これは合成データの例です。この特別なアプローチは、「ディストラクター」を使ったドメインランダマイゼーションとして知られています。
ビジュアル エフェクト ツールを使って合成データを作成することは、ML用の大規模で多様なデータセットを生成する方法として、ますます一般的になってきています。この種のデータは、実世界の学習データが不足している場合や、実世界のデータを入手するのが困難または高価な場合に使用されることが多いです。VFXソフトウェアは、リアルな仮想環境、オブジェクト、キャラクターを作成し、有用なシナリオで操作したり撮影したりするために使用できます。VFXを使用することで、稀な出来事や危険な状況など、現実では入手が困難または不可能なデータを作成することができます。さらに、照明、天候、カメラアングルを制御できるため、データ生成プロセスや入力可能性のバリエーションをよりコントロールできます。また、上述したように、MLソリューションの舵取りをする方法として、非常に明らかに「間違った」データを作成するために使用することもできます。 その結果、合成データはMLやコンピュータ・ビジョンのアプリケーションにとって不可欠なツールになりつつあります。
COVIDの期間中、多くの企業がVFXベースの合成データの利点を発見しました。例えばアメリカのある農業会社は、グラウンドトゥルースデータ用の写真を撮影するために人を畑に呼ぶことができなかったので、代わりに合成データでトレーニングを行いました。VFXではMLを訓練してrotoを向上させたい場合、人間のアーティストがセグメンテーションマップのために様々な個々のフレームに注釈をつけたり、ロトスコープで切り出したりすることができますが、アニメ化されたデジタルヒューマンを使って合成的にセグメンテーションマップを作成するのに比べて、ノイズが入ってしまいます。ここでは「ロト」セグメンテーションは、実際に3Dシルエットがあることに基づいてフェイクされていますが、非常に正確なものになります。100%正確で高品質なデータを作成することができ、従来の手法で見られるような欠陥は一切ありません。
合成トレーニングデータとは、人工的に生成されたデータのことで、現在すべての主要AI企業でMLモデルのトレーニングに使用されています。NvidiaやGoogleをはじめとする多くの企業が、生成的敵対ネットワーク(GAN)、ニューラルネットワーク、VFXシミュレーションツールなどを使って合成トレーニングデータを生成しています。
合成データは、以下のような様々な手法を用いて生成することができます。
合成訓練データの目的は、機械学習モデルの訓練に使用できる大規模で多様なデータセットを作成し、その精度を向上させることです。なぜなら、合成学習データは多くの場合、より効率的に生成され、役に立つ対応する追加メタデータを提供してくれるからです。例えばあるアプリケーションの学習に、デジタルヒューマンの顔を使用することができます。それは、より正確でリアルに見えるからではなく、非常に正確な表面法線を提供できるからです。
MLソリューションを作成し、特にキュレーションするには、解決しようとする問題、使用されるデータ、適用されるMLアルゴリズムを深く理解する必要があります。これは高度なスキルと要求の高い(人間の)役割となり得ます。構造化されたアプローチに従い、継続的に反復と改善を行うことで、MLソリューションは複雑な問題を解決し、イノベーションを推進するための強力なツールとなり得ます。MLが膨大なデータを持っているからといって、必ずしも精度が高いとは限りません。アカデミー賞受賞者のライアン・レイニーは、2021年にfxguideに対し、彼の長編ドキュメンタリー映画『Welcome to Chechnya』のためのトレーニングデータの撮影について、このように説明しています。
長編映画を制作する際、レイニーは適切なトレーニングクリップの選択に集中することが重要なステップであることに気づきました。どの証人の顔にも置き換え可能な膨大なトレーニング素材から、注意深く厳選されたサブセットのみが使用されました。このプロセスでは、トレーニングデータを追跡し、ヘッドアングル、色温度、照明のマッチングに基づいてフレーム/クリップのセットを自動的に生成するために、いくつかの機械学習ツールが導入されました。特定のトレーニングデータは、データセットの「顔」エンコーディングに基づき、NumPy - ユークリッド距離、「ビッグテーブル」ルックアップ手法を使用してマスターデータベースから引き出されました。顔のエンコーディングは、顔の角度と表情に基づいています。
各俳優は、同じ演技を複数のアングルで撮影するために、周囲に複数のカメラを配置して撮影されました。カメラのセットアップ中、実際のシャッターコントロールは同期して制御することができませんでした。その結果、ライアンはただカメラを回し、テイク間のカットはしませんでした。その結果、意図的なテイクと、俳優が片側に寄って監督と話している間のランダムな録音の両方をトレーニング映像として残すことになりました。その結果、トレーニングデータ全体として、俳優の顔の片側(俳優が監督と話すために振り向いたときにカメラに映る側)に偏りが出てしまいました。ライアンは、これこそが避けるべき偏ったトレーニングデータであると指摘しました。
ライアンの例は、トレーニングデータに望ましくないバイアスがあることですが、MLトレーニングの技術に長けていれば、コントロールバイアスを導入することも同様に有効です。MLのソリューションには批判的な目でアプローチすることが重要であり、ハイテクでAIを使っているからといって、そのソリューションが正しいとか優れていると単純に信じてはいけません。基礎となるデータと仮定を調査し、使用されているトレーニングデータの限界を考慮することが不可欠です。
さらに詳しく知るために、エヌビディアとグーグルのML専門家に話を聞きました。
ポール・キャレンダー氏は、NVIDIAのレプリケーター・チームのテクニカル・アーティストです。NVIDIAは機械学習分野において、間違いなく今世界で最も勢いのある企業であり、その事実は、上場企業としての急速な収益と株価の躍進に反映されています。
NVIDIAには、SimReadyアセットを作成するための開発者ツール一式があります。SimReady(シミュレーション対応)アセットとは、物理的に正確な3Dオブジェクトのことで、正確な物理特性、挙動、メタデータを持ち、シミュレーションされたデジタル世界(および/またはデジタルツイン)で現実世界を表現します。SimReadyアセットは、Universal Scene Description (USD)を使用して構築され、NVIDIAのオープンソース、スケーラブル、マルチプラットフォーム物理シミュレーションソリューションであるPhysXで最大限の精度を得るために、現実世界と同じように動作するように構築されています。
NVIDIAのSIM Readyアセットは、通常のVFX要件を超えるものです。SIM Readyアセットは興味深いもので、ポール・カレンダー氏は、「アセットでは、多くのプロパティや属性をランダム化することができます。 VFXアセットのいくつかの側面は、マテリアルプロパティなど簡単に変更することができますが、一般的には、メッシュを分離したり、異なるピースに分割したりするようなことをしたい場合は、すべてを完全にパラメータ化するのが理想的です」 Sim Readyアセットでは、可能な限り多くのプロパティをプロシージャルにランダム化することができます。
同社のOmniverseツールキットとSDKの一部として、Omniverse Replicatorと呼ばれる特定の合成データ生成があります。これは、合成データ生成に特化したOmniverseの拡張機能です。NVIDIAのOmniverse Replicatorは、研究者や開発者が物理的に正確な合成データを生成し、MLネットワークのトレーニングを加速するためのカスタム合成データ生成(SDG)ツールを簡単に構築することを可能にする中核部分です。ポール・キャレンダー氏は、「これはすべてPythonicで、SDGシミュレーションを作成するためのOmniverseの他のすべての側面と統合されており、合成データを生成するために使用できます」とコメントしています。
MLによるVFXの「トリック」には、一般的なものがたくさんあります。例えば、ビジュアル・オブジェクトの部分的な非表示バージョンを作成するといったものです。もう1つの興味深いMLのコンセプトはアブレーションと呼ばれるもので、ポール・キャレンダー氏はこう説明します。「データセットは、テクスチャのランダム化、照明のランダム化、ノイズの追加など、様々なバリエーションで生成されます。アブレーションは、ランダム化がどの程度パフォーマンスに有効かをテストするために、ランダム化の種類を1つずつ削除するセットを作成します。これは、SDGチームがバリエーションがデータセットにどのような影響を与えるかを理解するのに役立つツールの1つです」
合成データに使用されるVFXに関して、カレンダーはSDG(合成データ生成)の段階を次のように分類しています。
「アセット生成は、伝統的なVFXにとって最大の分野です。なぜなら、"ドメインギャップを埋める "ために様々なアセットや環境が飽くことなく必要とされ、現場の真実に近づくことができるからです」と彼は説明します。「HoudiniとBlenderは、プロシージャルであるため、特に注目に値します」プロシージャル性とSimReadyアセットは、SDGのバリエーションを作成しパラメータ化するためのソリューションの一部です。「私たちは、アセットを取得し、シーンに入力するためのプログラム的アプローチに傾倒する必要があります。そのためには、すべてのアセットが分類によって自分が何であるかを "知っている "必要があります。 理想的には、シーンの生成とキャプチャの実行中にこれを行い、変更できないハードな "ベイクダウン "アセットに頼らないことです。これが、リアルタイム・ソリューションが望ましい理由のひとつです。SDGの修正とレンダリングと生成の速度は、潜在的に非常に速いのです」
コンポジティングのような伝統的なVFXのコンセプトも、SDGに類似しています。「センサーノイズやピクセル色域のマッチング、さらには光の吹き出しのマッチングも、グランドトゥルースにそれらのアーティファクトが含まれている場合には重要になります」このようなアーティファクトは、合成中やグレーディング中に、多くの場合リアルタイムで、あるいはポストプロセスとして適用することができます。「必要な効果を達成するために、OpenCVや他のpythonフレンドリーな画像ライブラリのようなライブラリを使用して、ポスト補強が通常行われます」通常NVIDIAは、シーン自体のライティングのバリエーションなど、主要なバリエーションにマッチさせようとします。「すべてをシミュレートすることで、現実に近づくことができ、シーン内のライトのフォトメトリック特性をマッチさせることで、プログラム的に数値を微調整しても、意味のある一貫した結果を得ることができるからです」
SDGは他ではできないことを解決してくれるので、非常に重要なのです。「画像内の車両が非常に小さく、アノテーションを行う人が、それらがどのクラスの車両であるかを識別できなかった例を見ました。 SDGは、画像内のレンダリングの大きさに関係なく、それらの分類を知ることができます」。この場合、SDGを含めると、AIモデルは遠くの車両を認識する性能をより引き出すことができました。
ポール・キャレンダー氏は、MLは退屈なデータ整理や平凡な作業とは程遠く、SDGは「探偵や錬金術」に似ていると指摘します。「AIは人間のように特徴を認識したり検出したりはしません。だから、何かがどのように見えるかについて、私たち自身の先入観に従うだけでは必ずしも正しいとは限らないのです」 このため、優れたSDGを生成することは、シーンを生成するアーティストと、データ上でモデルをテスト・訓練するMLエンジニアの間の反復プロセスであると彼は考えています。
「私たちのチームは、シーンの本質的な部分を探り出し、合成的にシステムを再構築して、大量のデータをプロシージャルに構築しています。VFX(およびゲーム開発)には、まさにこのような長い歴史があると常に感じています。リファレンスからビジュアルを作成し、結果を達成するために、多くの場合プロシージャルで、多くの場合シミュレーションとして、システムを考案するのです」
結局のところ、ポール・キャレンダーのようなアーティストは、SDGを成功させるために、VFXやゲーム業界で一般的なツールを深く利用しています。「それはエキサイティングな空間であり、スキルのマッピングは非常にうまくいっています」
GoogleのSynthetic Teamは、プロダクションで使用される一般的なVFXツールの多くを使用しています。Houdini、Blender、Maya、NukeなどのDCCツールです。「パイプラインとワークフローは、過去のVFXにインスパイアされていますが、VFXハウスと同一ではない環境で統合されています」とGoogleのルカ・プラッソ氏(元Dreamworksシニアテクニカルアーティスト)はコメントしています。「私たちは、多くのカスタムおよび独自のツールやコードをミックスに加え、テックアーティストが私たちのエンジニアリングスタッフと一緒に働いています」と指摘します。「機械学習における合成データの役割と使い方は日々進化しており、データの生成と消費の方法はプロジェクトによって異なります。
Googleのチームは、世界を "見て理解する "ためのアルゴリズムを訓練するために使われる、一般的な合成3Dシーンに焦点を当てています。多くの場合、この世界は複雑で、三次元で、アニメーションで、GANや同様のアルゴリズムではまだ再現できない多くの情報の層でできています。同時に、新しいテクニックは "伝統的な "パイプラインに居場所を見つけます。例えば、モーションは単にモーキャップで生成するのではなく、合成することができます。シーンや写真のリライティングやリレンダリングは、例えばNeRFアルゴリズムを使って、新しいエキサイティングな方法で行うことができます。 (NeRFの説明については、fxguideの記事を参照)
チームにとっての挑戦は、合成パイプラインを大規模に開発しながら、こうした急速な変化に対応できるようにすることです。合成データがMLで有用なのは、現実世界では必要なスケールで簡単に取得できないデータを生成できるからです。合成データは、人間のアノテーターによってもたらされる "ノイズ "に悩まされることなく、正確で、アノテートされ詳細です。「多くの場合、合成データは、実世界からデータを収集し始める前であっても、新しいアルゴリズムの設計のブロックを解除することができます」と彼は説明します。
合成データシステムの設計における課題のひとつは、バイアスにどう対処するかということです。「例えば、アルゴリズムにペンを認識させる必要がある場合、形状、材質、外観、手触りを制御し、これまでに製造されたあらゆるペンを生成できる手続き的システムを設計します。このようなシステムを設計する際には、例えばボールペンのみを設計するような偏りが生じないようにする必要があります。実際のデータを取得し始めると、そのようなバイアスを取り除き、実際のデータにできるだけ近いものを作成するために、デザインの選択を常に再評価する必要があります」HoudiniのようなプロシージャルVFXツールは、チームが取り組まなければならない多くの作業に適しています。「私たちのチームは、新しいハードウェアセンサーが利用可能になる前にデータを作成するよう求められることがよくあります。このようなアプローチは、従来のDCCツールで可能なことをシミュレートし、研究開発を解き放ちます」
「以前はPDI/ドリームワークスで子供や両親の観客のために映画を作っていたのに、今はアルゴリズムだけが見るような映画を作るなんて冗談だ......僕はアルゴリズムのために映画を作るんだ。幸いなことに、続編を作るとき、アルゴリズムはうるさく言わないんだ!]- ルカ・プラッソ
スケール設計もまた別の課題です。MLアルゴリズムの中には、非常に多くのデータを必要とするものがあります。「数千の画像/シーン/バリエーションが必要なのではなく、数百万、数千万が必要な場合もあります。そのような場合、7分の長編映画クリップを作成するために設計されたVFXのようなパイプラインを、作成する必要があるすべてのデータセットに対して複製することができます」
Googleも独自のパイプラインや技術を持っており以前から実装し取り組んでいるが、彼らのMLエンジニアはSIGGRAPHやCVPRのようなカンファレンスで研究成果を発表する傾向があります。「グランド・トゥルースの実データは、これらのシステムのほとんどを設計する上で非常に重要です。私たちの仕事の根拠となり、アーティストがワークフローに不必要なバイアスを持ち込むのを防ぎます。私たちの仕事がうまくいけば、私たちのデータは(必要とされる品質とスケールの限界内で)可能な限りグランドトゥルースに近いものになります」
Googleはまた、トレーニングデータのキュレーションも機械学習プロセスの重要な部分としています。「キュレーションは、合成データと実データの測定と正確なラベリングに大きく関係しています。これによってML研究者は、トレーニングで安全に使用できるデータを特定し、比較対照し、より良いアルゴリズムのパフォーマンスを達成するために、実データと合成データの適切な "比率 "を見つけることができます」
合成データは、現実世界で撮影されたグラウンド・トゥルース・データの代わりとなるオリジナルの画像やデータを新たに作成するために使用する方法と、オリジナルのグラウンド・トゥルース・トレーニング・データを補強、補足、構築するために使用する方法があります。2つ目のケースは、トレーニングデータとして使用される可能性のある画像を取得し、それを反転させ、回転させ、人間の目には些細に見えるが、実際にはトレーニングデータに膨大な乗算効果をもたらすような方法で調整する自動化されたプロセスが存在します。PyTorchのような様々な機械学習ツールでは、学習データを9倍にする自動化された機能を備えていることも珍しくありません。アフィン変換とは、画像を反転(ミラーリング)するように、直線や平行度は保持するが、必ずしもユークリッド距離や角度は保持しない幾何学的変換のことです。
機械学習では、次元とはデータ・ポイントを表現するのに使われる特徴や変数の数を指す。例えば、データ・ポイントは3つの次元を持ち、その高さ、幅、深さを表す。データセットの次元数は、MLモデルの精度に大きな影響を与える可能性があります。機械学習における深さとは、ニューラルネットワークのレイヤーの数を指します。ニューラルネットワークは複数のレイヤーから構成され、それぞれが情報を処理するニューロンを含みます。ネットワークのレイヤー数はその深さを決定し、これはモデルの精度に大きな影響を与えます。より深いネットワークは、データのより複雑な関係をモデル化することができるため、より正確な結果を出すことができます。トレーニングデータのキュレーションの重要な側面の1つは、MLパイプラインの次元と深さに基づいて、適切な量と種類のデータを提供することです。
MLにおける重要な洞察は、交絡因子がニューラルネットワークモデルの予測性能に悪影響を与える可能性があるということです。MLは複雑な問題を解くのに強力だが、欠点がないわけではありません。MLの最大の課題の1つは交絡因子の存在です。交絡因子とは、MLモデルの精度に大きな影響を与えうるが、モデルの出力には直接関係しないデータ中の変数のことです。例えば、画像中の猫を識別するために学習されたMLモデルにおいて、猫の毛色は、猫を識別するというタスクには直接関係しないが、モデルの精度に影響を与える可能性があるため、交絡因子となる可能性があります。これに対処するためには、モデルを学習する前に、データ中の交絡因子を特定し、それを考慮することが重要です。これは、特徴選択、データの前処理、またはデータのキュレーションなどのテクニックを使用することによって行うことができます。
これらの課題の1つは、このような交絡因子の存在に起因する、ディープラーニング手法によって抽出された「誤ったシグナル」を除去することです。このような認識ミスを認識した上で、経験的な証拠によると、ディープニューラルネットワークは、一見よく訓練されたディープラーニングモデルが、ラボで収集/管理されたデータセットでは高い予測力を持つにもかかわらず、外部データセットでは限定的な予測性能を示すような、交絡要因からシグナルを学習することができます。
MLにおいて少数特徴とは、他の特徴に比べて出現数が少ないデータの特徴です。これらの少数特徴はMLモデルの精度に大きな影響を与える可能性がありますが、数が少ないために見落とされがちです。少数特徴はバイアスを引き起こし、不正確な結果につながる可能性があるため、モデルを学習する前にデータ内の少数特徴を識別し、考慮することが重要です。オーバーサンプリングやアンダーサンプリングなどのテクニックを使用することで、データセットのバランスをとり、少数特徴が無視されないようにすることができます。さらに特徴選択などのデータ前処理技術も、データ中の少数派の特徴を識別し、考慮するのに役立ちます。
SMOTE(Synthetic Minority Oversampling Technique)は、データセット内の少数特徴の問題に対処するために使用されるML技術です。これは、データセット中の少数特徴に類似した合成データ点を作成することで機能します。これにより、モデルは少数特徴からより良く学習することができ、より正確なモデルが得られます。SMOTEはデータセットに少数派の特徴が少ない場合に特に有効で、データセットのバランスをとり、これらの特徴が無視されないようにするのに役立ちます。
データサイエンティストのJoe Cincottaがfxguideに説明したように、「SMOTEはクラスタリングを使って、十分に表現されていないサンプルの近辺の値を近似します」これは単純な数値には有効です。 複雑な画像データセットの場合は、生成モデルの方がより望まれるものに近いです。画像データセットで少数派の特徴を特定した場合、少数派の画像でのみ学習されたGANや拡散モデルの出力を使用することで、少数派のオーバーサンプリングを実行しようとすることができます。
ドロップアウトは、オーバーフィッティングを防ぐためにMLで使われるテクニックです。オーバーフィッティングは、モデルが訓練データにフィットしすぎて、未知のデータに汎化できない場合に発生します。ドロップアウトは、訓練中にニューラルネットワークからニューロンをランダムに「脱落」させることで機能しまうす。これによりネットワークは、未知のデータに適用できる、より一般的な特徴セットを学習するようになります。ドロップアウトはモデルの精度を向上させ、オーバーフィッティングの可能性を減らすのに役立ちます。
LAで開催されたSIGGRAPHで、Wētā FXチームは、パンドラの水棲生物メトカイナ一族のサンゴ礁の村の近くの海底に生息する生物のオーバーフィッティングについて語りました。
オーバーフィットは、特定のユースケースのための合成データを生成するために意図的に使用することができます。小さなデータセットにモデルをオーバーフィットさせることで、データ分布の複雑な詳細を捉えることができます。そして、コントロールされたバリエーションや摂動を導入することで、元のデータの特徴を維持した新しい合成例を作成することができます。このテクニックは実世界のデータが限られているが、モデルをより良く一般化したい場合に特に有効です。例えば、Wētā FXのオーバーフィッティングは、注意深くコントロールされ、目的を持って行われています。彼らの目標は、未知のデータに対してパフォーマンスの低いモデルを作成することではなく、学習データから複雑なディテールを捉えるモデルの能力を活用し、この知識を制御された方法で使用して、類似しているが独創的な水中植物や海藻を大量に生成することです。
NVIDIAの新しいマゼンタグリーンスクリーンアプローチは、今年のSIGGRAPHでも注目されました。この研究は、グリーンスクリーンをキーイングするための新しいアプローチとして、いくつかの一般紙で取り上げられました。しかし、これは、トレーニングデータとして使用するための非常に高品質なマットを生成する新しい方法であるという、主要なポイントを見逃していました。 前景の俳優のカラー画像と高品質のアルファチャンネルを同時に記録することにより(特別なカメラや手動のキーイング技術を必要としない)、非常に正確なマットを素早く作成する自動化された方法を提供します。
チームは、緑色の背景に俳優を録画し、赤と青の前景照明のみで彼らを照らす新しいアプローチを設定しました。これは、分離と最新のCMOSカメラの設計方法によって非常にうまく機能します。この構成では、緑色のチャンネルは、明るく均一な背景を背景にした俳優のシルエットを示し、俳優のアルファチャンネルの逆であるホールドアウトマットとして直接使用することができます。次に彼らはMLを使用して前景の緑チャンネルを復元するために、まったく別のAIを使用しますが、前景の再色付けにのみ使用します。そのために、白色照明で照らされた俳優のシーケンス例を用いて色付けモデルを学習させ、説得力のある前景の結果を得ています。真の問題は、再色付けにMLを使用することではなく、マットの品質です。
彼らの技術で出力された高品質のアルファチャンネルデータは、将来のMLマッティング研究で作られる新世代の自然画像マッティングアルゴリズムのための、格段に優れたトレーニングデータセットを提供します。
特にジェネレイティブ・モデルの急速な発展により、合成データ生成は今後ますます拡大していくでしょう。
先日Nvidiaが発表したNeuralangeloに関する記事が公開されています。
https://www.fxguide.com/quicktakes/neural-surface-reconstruction-from-a-phone-with-neuralangelo/
fxguideでは、NeRFの来るべきパワーについて書いてきましたが、NVIDIAはこの分野でのリーダー的存在です。多くの場合、アーティストは、デジタルツイン、コピー、またはデジタル複製を作成するために、環境や小道具をサンプリングする必要があります。
写真測量は、必要な画像の数という点で、現実的な問題を提起しています。NVIDIAは、NeRF技術を使用して3Dモデルを作成するために、携帯電話からのビデオを使用する研究を発表したばかりです。
ニューラルサーフェス再構成は、画像ベースのニューラルレンダリングを使用して高密度の3Dサーフェイスを回復する強力な方法であることがすでに示されていますが、現在の多くの方法は、十分に詳細なサーフェス構造を持つモデルを提供することに苦労しています。
この問題に対処するため、NVIDIA は多解像度 3D ハッシュグリッドのパワーとニューラルサーフェスレンダリングを組み合わせた Neuralangelo をリリースしました。このアプローチは、2つの重要な要素によって実現されています。
1つ目は、スムージング操作として高次導関数を計算するための数値勾配を使用することです。次に、Neuralangeloは、生成されたハッシュグリッドに対して、異なるレベルのディテールを制御する粗から細への最適化を使用しています。
Neuralangeloは深度マップのような追加のカメラ入力がなくても、従来の手法よりもはるかに優れた忠実度で、クリップから高密度の3D表面構造を効果的に生成することができます。これにより、ドローンや携帯電話の動画などのビデオキャプチャから、詳細な大規模シーンの再構成が可能になります。
Neuralangeloは、複雑なディテールやテクスチャを持つ3D構造を生成するので、VFXプロフェッショナルは、これらの3Dオブジェクトをお気に入りの3Dアプリケーションやデザインアプリケーションにインポートし、さらにプロダクション用に編集することができます。
通常の画像ベースのフォトグラメトリー技術では、キャプチャするシーンを表現するために「ボリューメトリック・オキュパンシー・グリッド」を使用します。
フォトグラメトリーの各ボクセルには、様々なオリジナルカメラビューからの対応する投影画像ピクセルの間に厳密な色の一貫性がある場合、それを「占有」とマークされます。この測光学的整合性の仮定は、自動露出を使用する場合や、反射面(非ランバートリアン)材料を撮影する場合に、一般的に失敗します(もちろん、現実世界では極めて一般的です)。
NeRF技術では、NeRF 3D再構成を行う際に、複数のビューにわたってこの色の恒常性制約を必要としなくなりました。比較すると、NeRFはビュー依存の効果でフォトリアリスティックな結果を達成します。つまり、フォトグラメトリーとは異なり、サーフェスは見る角度によって変化する様を捉えているようです。
マルチビューステレオ技術を使って点群を構築することもできますが、これはしばしばサーフェスの欠落やノイズにつながり、非ランバートゥアンの材料に苦労します。NeRFは、座標ベースの多層パーセプトロン(MLP)を使用してシーンを暗黙の関数として表現するため、ビュー依存の効果を持つフォトリアリスティックな画像を実現します。3Dの空間位置を色と体積の密度でマッピングするMLPで3Dシーンを符号化します。MLPの固有の連続性をニューラルボリュームレンダリングで活用することで、空間位置間を補間する最適化されたサーフェスを実現し、滑らかで完全なサーフェス表現が可能になります。これらのMLPニューラルレンダリングの問題点は、スケール感がないことでした。しかし、最近の論文Instant neural graphics primitives with a multiresolution hash encodingがこれに対処しました。この新しいスケーラブルな表現は、Instant NGP(Neural Graphics Primitives)と呼ばれています。
Instant NGPは、マルチ解像度ハッシュエンコーディングと軽量MLPを用いたハイブリッド3Dグリッド構造を導入しており、スケーラブルな表現が可能です。このハイブリッド表現は、ニューラルフィールドのパワーを大幅に向上させ、オブジェクトの非常に細かいディテールを表現することに大きな成功を収めました。NVIDIAの新作では、この新技術を用いた高忠実度のサーフェス再構成として、Neuralangeloを提供しています。Neuralangeloは、3Dシーンのニューラルレンダリング表現としてInstant NGPを採用し、ニューラルサーフェスレンダリングによって複数の異なるビューから作業するように最適化されています。
Neuralangeloはマルチビュー画像からシーンを再構築します。Neuralangeloは、ビデオクリップからカメラビューに沿って3D位置をサンプリングし、マルチ解像度ハッシュエンコーディングを使用して位置を符号化します。高次微分の数値勾配と粗から細への最適化戦略を用いて、ニューラル・サーフェス再構成のためのマルチ解像度ハッシュ・エンコーディングの力を提供するのです。
Neuralangeloは、物体中心のキャプチャや屋内外の大規模なシーンの濃密なシーン情報を極めて高い精度で効果的に復元し、通常の映像から詳細な大規模シーンの復元を可能にします。
Neuralangelo'sは、屋根の板、ガラスの窓ガラス、滑らかに輝く大理石など、実世界の複雑なテクスチャや複雑な素材を持つオブジェクトを翻訳することができます。 このメソッドの忠実度の高い出力により、その3D再構成はより有用なものとなります。
「Neuralangeloが提供する3D再構成機能は、クリエイターにとって大きなメリットとなり、デジタル世界で現実世界を再現するのに役立ちます」と、研究部門のシニアディレクターで論文の共著者であるMing-Yu Liuは語っています。「このツールにより、開発者は最終的に、小さな彫像から巨大な建物まで、詳細なオブジェクトを取り込んで、仮想環境、セットリファレンス再構成やゲーム、デジタルツインで使用できるようになります」
グランツーリスモにUSD採用のインタビューが公開されています。CEDEC 2022の方が詳細な話だった気がするけど、とりあえずメモ。
どうしてNVIDIA?と思ったらOmniverse関連なのか。
株式会社ソニー・インタラクティブエンタテインメントの子会社で、『グランツーリスモ』を開発したポリフォニー・デジタルは、30年にわたるプレイステーション用ソフトウェアタイトルの累計セルスルー売上が90M本を突破しました。2022年に発売された『グランツーリスモ7』は、シリーズ開始から25周年を迎え、「Universal Scene Description(USD)」の実装が行われました。USDは、3Dワールド内の描写、合成、シミュレーション、コラボレーションを行うためのAPIを備えたオープンシーン記述です。
Tools Pipeline Engineering Leadの安藤 恵美は、NVIDIAの最新リリースにおける統合プロセス、およびポリフォニーのゲーム開発パイプラインにおける採用計画について、NVIDIAと対談しました。
USDの技術は、映像制作のための大規模でマルチユーザー、多様なアセットパイプラインをサポートしています。映像制作用に設計されたライブラリですが、大規模で複雑なパイプラインをサポートするUSDの仕組みは、ゲーム内制作にも活用できると考えています。USDには、コンポジション、アセットリゾルバー、ファイルフォーマットプラグイン、カスタムスキーマなど、パイプライン構築に必要な機能がすでに用意されているため、私たちのパイプラインに合うように対応しました。
USDは、Houdiniなどの異なるツールで編集できるという点で、以前のフォーマットとは異なります。USDのコンポジションはこれまでのフォーマットとは異なり、非破壊でデータを編集することが可能です。ゲーム独自の仕様が書かれたデータでも、データを失うことなく、さまざまなツール間で行き来することができます。
「グランツーリスモ」では車やコースなどのアセットを主にAutodesk Mayaで制作していますが、そのデータは非常に複雑です。様々なプラグインや仕様を設定するためのツールも多く、それらをHoudini用に再実装するのはコストがかかりました。
特にシェーダーは複雑でHoudiniでシェーダーのプレビューや編集を行う環境を新たに開発するのはコストがかかり、すぐに実装するのは難しい。しかし、USDでは、モデリング中にAutodesk Mayaでマテリアル設定を行い、マテリアルの割り付けはHoudiniで行うことが可能になりました。
複数のツールで非破壊かつプロシージャルにシーングラフを扱えることです。ゲームの場合、DCC(Digital Content Creation)ツールで様々な専用仕様が設定されています。従来のフォーマットでは、異なるツールで編集する場合、それぞれのツールでパラメータを扱わないと正しく扱えませんでした。
ゲーム制作においても映像制作と同様に、多くの人が同時に多くのアセットやショットを制作しながら、様々なゲーム仕様を追加していくことが可能です。USDはコンポジションが非破壊編集に使えるので、複数のツール間をスムーズに行き来することができ、こうした問題を解決しています。
現在のパイプラインは巨大で、それを一度にUSD化するのは不可能でした。パイプラインの運用を維持しながら、部分的に移行を進めていく必要がありました。
まず、実際のプロジェクトに導入する前に、独立したプロジェクト(できれば既存のシステムとは別に)を立ち上げて、USDの仕組みを理解する必要があります。
USDをゲームのアセットとして使用する場合、映像制作とは異なり、ゲーム制作に特化したスキーマや編集ツールが確立されていないことを理解することが重要です。USDの仕様やデータ構造、API仕様などを理解する必要があります。アセット制作に導入する前に、XMLやJSONなどのファイル形式を覚える必要があります。ゲームの仕様に合わせて自社で開発することが必要です。
変換パイプラインのパラメータを管理するフォーマットとして、USDを導入しました。アセットデータと違って、すべてが小さなASCIIファイルになっています。データの構造がわかりやすく、レイヤー、ステージ、スキーマといった概念も理解しやすい。この利点が、アセット制作におけるシステム導入の土台となりました。
もちろん、そうしています。USDを採用した「グランツーリスモ7」でも、まだ実装は限定的でした。USDを前提としたアセットの仕組みや公開環境の構築に取り組んでいます。制作の反復性を高めるなど、チャレンジできるところはチャレンジしていく予定です。
ゲーム制作では、映像制作のように確立されたスキーマが存在しません。KATANAやHoudini SOLARISのように、USDをレイアウトして、ライティングして、レンダリングして......という環境は存在しません。ゲームエンジンでレンダラーを使えるようにするには、レンダラーの代わりに変換パイプラインを用意するか、ゲームエンジンを使うしかない。
MayaやSOLARISなどのDCCツールでUSD対応が進むなど、アーティストやテクニカルアーティストは、データ互換の柔軟性や安定性、効率性が向上したことに満足しています。また、オープンソースライブラリを積極的に活用することで、開発リソースを制作固有の課題に集中させることができ、経営面でも大きなメリットがあります。
USDであれば、すぐに対応した共通環境でテストができます。メタバースアプリケーションを構築・運用するためのリアルタイム設計連携・シミュレーションプラットフォーム「NVIDIA Omniverse」をはじめ、さまざまなツールの対応が進めば、今後さらにUSDを採用するメリットは大きくなると思います。
3dsMax for V-RayのUIをQt化する話が紹介されていました。
3dsMaxのUIは長い間古いWin32ライブラリが使用されてきました。このため近代的なハード構成のPCでもUI描画が非常に遅くなっていました。特にパラメータの多いVrayのようなプラグインのUIでは遅さが顕著になり、「QTの描画ドライバーをDirect Xにすると少しだけUI速度が早くなる」というようなTipsが公開されるほどでした。
でそこでAutodeskは、PhotoShop、AfterEffects、Mayaなど本格的なプロ向けの製品で使用されるQtライブラリをMaxに導入したのですが、全然速く感じないどころか前よりも遅くなってる!と感じた人も多いと思います。
遅く感じるのは気のせいかと思ってましたが、実際に遅くなってたということが書かれててやっぱりかよ思いました。
そしてMax本体の多くのUIは、いまだに古いWin32で書かれた物が使われてえそうな気がします。
https://www.chaos.com/blog/the-qt-fication-of-v-ray
私たちは3D Studio Maxと強い絆で結ばれ、新しい技術が登場するたびに、ユーザーの手元に届くようにと、大切な思い出を共有してきました。
その一つがMaxのUIにQtライブラリが採用されたことです。Max内部の隠れた作業はバージョン2017くらいから始まり、バージョン2018には最初のQt UIが登場し、現在もいくつかの作業が進行中です。
Qtの導入は、老朽化したWin32ライブラリに代わって、最新の機能群、全体的な高速化、クロスプラットフォーム化などを目指すものです。
この記事で述べたことを証明するために、数年前に実施したテストと、最新のハードウェアとソフトウェアで再テストした結果を紹介します。
私は、3つの主要なマテリアルの完全なUIを再描画するのにかかる時間をベンチマークしてみました。V-Ray Material、ALSurface、FastSSS2です。これらは多くのワークフローの中心であり、多くのUIコントロールが含まれているからです。
マテリアルエディタは、可能な限りすべてのコントロールが描画されるように最大限の高さに引き伸ばされ、プレビューのレンダリングは無効にされました。
時間は100回計測され、平均化されました。その結果は、記事の中で適切な箇所に記載します。
10年前に十分、あるいは速いと感じたのは、ハードウェアのスピードから私たちの期待まで、すべての体験がそれを許したからです。つまり、私たちはこの問題に対して、今よりずっと鈍感だったのです。
この理論を検証するために、私はV-Ray 3.xの最終バージョン(3.7)を使って、Max 2015上でベンチマークを行うように努めました。測定された速度はネイティブのWin32 Controlsのものであり、多かれ少なかれ過去最高の状態です。
VRayMtlクラスは再描画に1.6159秒を要しました。
VRayALSurfaceMtlは1.2955秒、VRayFastSSS2は1.2655秒とほぼ同じ時間がかかりました。
Maxでマテリアルエディタやレンダー設定ウィンドウをドラッグすると、ウィンドウがそれに追いつこうとする間にマウスカーソルが別の場所に移動してしまい、ひどいラグが発生します(現在の強力なハードウェアでは、そうするのに1秒近くかかります)。
これはパフォーマンスが不十分になっていることに気づき、早期にQtを導入したオートデスクの開発者の先見の明の賜物です。感謝。
Max の Qt 化が進む中、Max バージョン 2018 頃からUI のスローダウンの報告を受けるようになり、そのいくつかは単にユーザーの疲れたワークステーションに起因するものとは言えないほど大きなものでした。
この頃、私はさまざまなWin32 UIコンポーネントのパフォーマンスをベンチマークするようになり、それらが不安定な再描画速度を示すことがあることを発見したのです。
また、ウィンドウを開くのに数秒かかることもあり、MaxのUIを移動させると、さらにラグが発生しました。
この問題はMax が Win32 コントロールを Qt バージョンに自動変換しているためで、コアあたりのクロックが低いメニーコアマシンでは、ワークフローを阻害する問題になり、コアあたりのクロックが高い CPU では単なる迷惑行為にしかなりませんでした。
Qt への移行中は互換性を維持する必要があったのです。しかし、これはすべての UI コントロールに影響し、深刻な遅延や断続的なスローダウン、全体的な動作の遅れをもたらしました。
スローダウンの行き当たりばったりを示すグラフ例。縦軸は数千ミリ秒に達する。
落ち込みを数値化するために、同じV-Rayのバージョン(3.7)をMax 2018でテストした結果がこちらです。
減速は比例しており、等しく約63%影響することに気づくことができます。
その間、最初のネイティブ Qt ダイアログが Autodesk Physical Material などに現れ、Win32 が遅れをとっているところでも例外的に速くなりました。スピナーやドロップダウンメニューなど、特定のコントロールタイプの再描画が最大で 10 倍速くなりました。
Qtコントロールの比較速度を示すグラフの例。縦軸は数百ミリ秒に達しています。
注意深い読者は、各実行がどんどん遅くなっていることにお気づきでしょう。
これは特定の Max のバージョンに関する別の問題で、特定の状況 (たとえば、長いルックデブセッション中) で私たちの惨状を悪化させるものでしたが、Qt の速度を著しく低下させるものではありませんでした。
なぜなら、その利点は無視できないほど大きく、いずれにせよ、私たちの古い家はすでに燃え尽きていたからです。
Qt のネイティブなアプローチで UI を書くのは簡単ではありませんでした。古い Win32 とアプローチ、メソッド、コントロールがほとんど一致しないため、UI コードはゼロから作り直さなければなりません。
つまり、すべてのラベルを打ち直し、すべてのスピナーを配置し直し、すべての項目のデフォルトを設定し直し、さまざまなコントロールの動作をチューニングし、などなどです。もちろん、ユーザーエクスペリエンスや効率を損なわないことが理想ですが。
開発者がUIを作り始めると、予期せぬ、そしてしばしば不当な動作が現れ、しばらくの間修正も不可能でした。様々な Qt コンポーネントは、古い Win32 コンポーネントと同じサイズにはならないので、アライメントがほとんど狂ってしまいます。
さらに、新しいコントロールのデフォルトのアプローチは、絶対的ではなく相対的な位置決めであり、コントロールのデフォルトのポリシーは自動スケーリングであり、Win32ライブラリの直接の継続としてそれらに期待されるものとは著しく異なる様々な動作(例えば、マテリアルやマップボタン)など。
私たちが直面した数々の災難は、Max 自体の統合と、統合された Qt ライブラリの成熟と、手を取り合って進める必要があることを明らかにしました。
UIの見た目と機能性を両立させるために、私たちは時間の余裕もなく、膨大な手間と手作業に頼りました。幸いなことにV-Rayの多くのUIレイアウトは自動的に生成され(例えば、ほとんどのレンダーエレメントのUI、VRayALSurfaceマテリアル、VRayDirtテクスチャー)、共通のコードを共有していたので少し楽になりました。
それでも、最初の概念実証のUIが完成する頃には、Qtへの移行をタイムリーに完了するために必要な作業量が膨大であることが明らかになりました。
vMax チーム(3D Studio Max 用 V-Ray の開発者)全員が Qt 化作業に参加し、Update 1 のリリースに間に合うように最初の中間変換ステップを出荷するために、必要な作業に正面から取り組みました。
V-Rayの各ダイアログには非常に多くのUIコントロールがあるため、この作業はチーム全体で何日もかけて行う必要があり、その結果他の作業を待たせるわけにはいかず、彼らに負担がかかることになりました。
vMaxの開発者にとって、この作業は大変な期間であったと言えますが、その分質の高い結果を出すことができました。
V-Ray 6.0 Update 1(または6.1)の時点で、Qtライブラリへの移行は基本的に完了しました。
マテリアル、マップ、様々なノード、モディファイア、そしてQtに変換できるすべての補助的なウィンドウが変換されました。
また、新しいコントロールのレイアウトや動作に関するユーザーからのフィードバックや意見を収集し、より良い翻訳を完成させ、ユーザーの生活の質を最大化するために、もう少し時間を確保することにしました。
また、QtライブラリのMaxへの統合が成熟してきたことによる副産物として、いくつかの動作の制限に対処する必要が残されています。この移行はまだ完全に完了していませんので、もう少し適応に時間がかかることを期待しています。
私たちはこの努力に報われたと感じるとともに、得られた数字にとても清々しさを感じています。
Max 2023とV-Ray 6.1のVRayMtlは0.4664秒(v3.7から再描画するコントロールが増えたとしても!)、VRayALSurfaceMtlは0.3621秒、VRayFastSSS2はわずか0.2857秒で描画されるようになったのです。
いずれの場合も、コントロールの再描画は目には見えないほど高速に行われます。同様に、ウィンドウのドラッグも瞬時に行われ、ウィンドウはマウスカーソルに釘付けになります。
つまり、現在のQt UIは、ネイティブのWin32よりも3~4倍、翻訳されたWin32よりも最大で7倍も速いのです。V-Ray 6 のアップデートを試してみて、Qt UI の新しい外観、スピード、使い勝手についてどう感じたか、ぜひ教えてください。
全カットの背景にAI生成画像を使用した短編アニメ 「犬と少年」のインタビュー記事が公開されています。
背景にAIを使用していることを知ってて見たせいか、ぱっと見いい感じだけど背景の描き込みに目が引っぱられたりレイアウトが弱いと感じました。でもインタビュー見ると手描きのレイアウトそのままな背景で、手描きで修正してるみたいですね。
https://www.businessinsider.jp/post-265291
『アバター:ウェイ・オブ・ウォーター』で使用されるハイフレームレート(HFR)+HDR+4K+3D上映に関連して、映画のフレームレートはどうやって決められたのか、という歴史が書かれた記事が公開されています。
映画は通常24FPS(1秒間に24枚の絵が表示される)ですが、『アバター: ウェイ・オブ・ウォーター』では普通のドラマ場面は24FPSで上映し、アクションシーンや水中シーンは48FPSになるとのことです。手描きアニメのような可変フレームレートは、どんな印象になるのか楽しみですね。
https://av.watch.impress.co.jp/docs/topic/1461878.html
映画のフレームレートの話は定期的に見かけますが、今回の記事は詳細に書かれてて面白かったです。
ハイフレームレート上映する映画館の情報はこちら。
https://av.watch.impress.co.jp/docs/news/1463723.html
ピクサーのアニメーターが、アーティストが見落としがちな10の微妙なエラーについて書いた記事が公開されています。
http://www.cgchannel.com/2022/03/10-subtle-mistakes-to-avoid-in-character-animation/
ピクサーのアニメーターであるエディ・オクバが、手や足の非現実的なポーズから非現実的なまばたきや口パクまで、経験豊富なアーティストでも見落としがちな10の微妙なエラーを修正し、良いアニメーションを素晴らしいものに変えましょう。
小さなディテールがキャラクターアニメーションの良し悪しを左右します。この記事では、アニメーターが犯しがちな10の微妙なエラーを明らかにします。
これは私がスーパーバイザー、リード、同僚、そしてイルミネーション・マック・グフ、ソニー・ピクチャーズ・イメージワークス、ピクサーなどのスタジオで、「ミニオンズ」「スパイダーマン:イントゥ・ザ・スパイダーバース」「ライトイヤー」などの映画に関わった日々の経験などから学んだことです。自分の作品からそれらを排除することで、ポーズやアニメーションにさらに5~10%の磨きをかけることができます。
この記事の画像は、WindowsまたはmacOSのMaya 2017+で使用するために無料でダウンロードできるAnimSchoolのMalcolm 2.0 rigを使用して作成されました。しかし、ヒント自体はどのアニメーションソフトウェアにも適用できます。
キャラクターをポージングするときは、快適に過ごせるかどうか確認しましょう。パースビューでキャラクターの周りを回転させながら全体のポーズを確認し、足首や手首が不自然に曲がっていないことを確認します。
人間の場合は、自分の体の限界に合わせたポーズを確認します。手や足を自然にその位置に持っていけるか?
もし、そうでなければ変えてみましょう。例えば、冒頭の画像では、かかとを引き上げることで全体のポーズが整い、キャラクターがより地に足が着いたように見えます。
キャラクターがモノを持っているとき、ついつい拳のポーズを取りたくなりますよね。しかし、その誘惑に負けてはいけません。
こぶしの中に物を押し込むのではなく、手のひらと指で物を包み込むようにすると、自然に見えるポーズになります。手は、観客が目の次に注目する部分であり、そのキャラクターの全体的な態度をよく表しています。
おまけ:私はキャラクターの手をスケールアップするのが好きです。現実の手の大きさの1.1倍くらいにすると、より存在感が増します。マルコムの手はすでに大きいので、これでは大きすぎるかもしれませんが、子供のキャラクターをアニメートするときには、このトリックはとても効果的です。
CGキャラクターは、手足がまっすぐなチューブでできていて、とても硬いです。より自然に、より良いシルエットに仕上げるには、腕、前腕、太ももを少し曲げるようにします。
上腕の上腕三頭筋、前腕の橈骨と尺骨、大腿四頭筋など、本物の筋肉や骨のような錯覚を起こします。 (ふくらはぎも同様にできますが、マルコムリグのふくらはぎは、すでに美しいわずかなカーブを描いています。)
見る人は結果を見るのではなく、結果を感じなければなりません。そうでなければ手足に手を加えていることになります。
肩を使うことを忘れてはいけません。よくある間違いはキャラクターの腕のポーズを決めるときに肩を動かさないことですが、特にキャラクターが腕を上げるとき、肩は実際に動きを出す場所です。
私は、キャラクターの腕が体から30°以上離れたところで回転するときは、必ず肩を使うことをお勧めします。肩は前後、上下に動かしてください。キャラクターが肩を高く上げている場合は、頭、首、胸も同様に回転させる必要があるかもしれません。全ては繋がっているのです。
アーモンド型の目とは、下まぶたと上まぶたの間の正中線上に目尻がある状態を指します。魅力的な顔ではありません。
目尻を下げて、まぶたの山を瞳孔に近づけるとよいでしょう。これは、ニュートラルなポーズから目を見開いた状態まで、冷ややかな表情・退屈そうな表情など、どんな目のポーズでも有効です。
私たちがまばたきをするとき、まぶたは通常、目尻の間の正中線より下に降りてきます。しかし、一部のキャラクタリグには、ちょうど真ん中の中立的なまばたきが付属しています。このような場合は、まばたきの高さの値があればそれを変更するか、目を閉じた位置を再確認するようにしてください。
これは古典的な日常的なまばたきのためのものです。例えば、痛みを感じているキャラクターや、アニメスタイルの逆笑いの目など、特別な場合はこの値から逸脱することができます。
アニメーターは、まばたきをするときにキャラクターの目の虹彩を下に動かし、目が開くときに上に戻すことがあります。
おそらく、白目だけが見えるフレームを作りたくないからでしょう(これはあまり魅力的に見えないと私は思います)。おそらく、より「アニメーション的」に見えるだけなのでしょう。
長い間、私自身もこの方法でアニメーションしていましたが、少なくとも何気ないまばたきにはリアリティがありません。私たちはまばたきをするとき、まったく下を向きません。何かを見ているのなら、それをずっと見ているのです。
キャラクターが激しい表情をしている場合、まばたきで目を動かせばその激しさが和らぎますし、すべてを一度に動かすと過剰なアニメーションに見えてしまいます。
とはいえ、まばたきで視線の方向を変える(例えば左から右へ)のも効果的ですので、ご自身のアニメーションに合った方法を試してみてください。
ダイアログをアニメーション化する場合、キャラクターの口の幅を音素ごとにあまり変化させないようにします。
下の例(「Hello CG Channel」)では、「He」と「llo」では口の幅が広くなり、「C」は狭くなり、「G」は狭くなり、「cha」と「nnel」は広くなり、狭くなります。
キャラクターの口の幅や顎の位置が、アニメーション中に変化しすぎている。
口角とあごを見てください。「こんにちは」については、アニメーションがかなり効いています。強調が落ちるので、言うのに時間がかかります。しかし、「CGチャンネル」はかなり速く話すので、一つ一つの音素を表現すると、アニメーションがちらつくようになります。
実際には、私たちは音節ごとに完璧に口の形を変えているわけではありません。「オー」という音が、必ずしも完璧に丸い口を意味するわけではないのです。キャラクターが話すスピードや、全体の表情(笑顔、叫び、怒りなど)によって、同じ音でも全く違う形になることがあるのです。
動きの振幅を小さくすることで、アニメーションがちらつくのを防ぐことができる。
このバージョンでは、「CGチャンネル」の場合、キャラクターが少し微笑んでいるので、口を少し広くしておきました。C-G-Cha」は同じ範囲で、「nnel」は狭くしています(狭すぎず)。
顎のコントロールも同じようにして、顎が上下に揺れないようにしたことに注目してください。キャラクターのあごがいつ、どのくらい開くかを感じるには、あごの下に手を置いて、自分で台詞を言ってみるのがよい方法です。
上のビデオでは、2つのバージョンを並べて見ることができます。
補足:リップシンクのアニメーションをタイムライン上で2フレーム左にオフセットして、キャラクターがセリフを言う前に口の形を整えるのが好きです。これが正当な方法なのか、それとも単なる個人的な好みなのかは、まだわかりません。自分でも試してみて、より自然に感じられるかどうか確かめてみてください。
アニメートしているとコントローラーがわからなくなりがちですが、キャラクターの体のさまざまな部分を逆回転させると、すぐに面倒なことになります。スプラインパスの際や、ディレクターやスーパーバイザーからのメモに対応する際にも、厳密であれば時間の節約になります。
ねじれを追跡する便利なトリックは、キャラクタの頭、胸、体に円柱を拘束することです。それらを別のレイヤーに配置し、可視性のオンオフを切り替えられるようにします。
同じことを、アニメーションを追跡するためにも行うことができ、その場合、円柱を互いに交差させる必要があるかもしれません。
ラタトゥイユのリングイネにコレットが言った言葉です。「自分の持ち場をはっきりさせておくこと」。一般的なアドバイスに聞こえるかもしれませんが、事前にショットを計画し、きれいに作業することは、完全な創造性を発揮し、メモに素早く反応するためには本当に重要なことなのです。
私は、撮影を始めるときにすべてをキーイングして、すべてのポーズですべてのボディパーツのキーフレームを用意しておきたいと思っています。後でディレイやブレイクダウンもしますが、まずはカーブが浮かないように各ポーズをコントロールします。
コントローラには、頭、首、胸、背骨の重心(COG)など、シンプルなものを使用します。リグによっては、ボディコントロールと COG コントロールがあるものもありますが、どちらか一方だけを使用すると、どちらが何をするのか追跡しづらくなります。
IK/FK を使用する必要がある場合、軸が正しく設定されていることを確認してください。たとえば、キャラクターが特定の方向に歩く必要がある場合、軸がその方向に配置されていることを確認してください。
「スマホでのコンテンツ視聴に占める広告の比率調査」が公開されてたのでメモ。主要Webサイトのデータ転送量、平均4割は広告というデータになったそうです。
https://www.lab-kadokawa.com/release/detail.php?id=0099
「スマホでのコンテンツ視聴に占める広告の比率調査」および「ブラウザーアプリによるWeb表示速度の調査」を実施し、その結果を取りまとめましたので、お知らせいたします。
新型コロナウイルス感染症流行の影響による外出自粛などによって、国内のインターネットのデータ転送量は、 月によっては例年より約5割増加しました(米アカマイ・テクノロジーズ調べ、2020年4月)。インターネットのデータ転送量には、コンテンツのデータだけでなく広告のデータも含まれ、その広告データの通信料金も、ユーザーが負担していることになります。そこで今回、Webをスマートフォンから利用する際のデータ転送量のうち、広告データがどの程度の比率を占めているのかを調査しました。
調査は、スマートフォン(iPhone)のWebブラウザーでアクセスできる主要な15のコンテンツサイトに実際にアクセスして、コンテンツを表示した際の全体のデータ転送量と、広告ブロックツールで広告を非表示にした際のデータ転送量を計測。その差を広告のデータ転送量と推計して、結果を集計しました。また、画像や動画など、転送されたデータの詳細な内訳も分析しました。そして、新しい「iOS14」より、iPhoneでも標準ブラウザーをユーザーが変更できるようになることから、Webブラウザーアプリによる表示速度の違いについて実測する調査も、併せて実施いたしました。結果の要点は以下の通りです。
今回調査した15の主要なコンテンツサイトの多くで、そのデータ転送量の半分以上を広告が占めていました。調査した15サイトの単純平均では、全データ転送量のうち約44%が広告と推計されます。これらの結果と、データ通信量の単価やWeb、SNS、動画サイト、メールといった項目ごとの利用時間・データ転送量等から類推すると、4人家族全員がスマートフォンを持っている場合、月々のデータ通信料金のうち約2,900円ぶんを広告のデータ転送に費やしていることになります。
データ転送量の内訳を見てみると、多くのコンテンツサイトは、JPEGやPNG、GIFといった画像データで広告が構成されています。一方、動画共有サイトや一部のポータルサイトではMP4動画が広告として表示され、そのデータ転送量が大きいため、広告のデータ転送量全体では、動画広告がかなりの比率を占めていると考えられます。
iPhoneで動作するWebブラウザーアプリはすべて、同じ「WebKit」というレンダリングエンジンを採用しています。しかし、今回調査した結果、広告の表示の有無などによって表示速度はかなり異なり、主要コンテンツサイトの表示速度では「Brave」が最速となりました。
ゲームの面白さや体験を「フロー理論」を使用して改善することができるという記事。なかなか面白くて興味深い。https://note.mu/kaerusanu/n/nc80f9523bb8e
https://ja.wikipedia.org/wiki/%E3%83%95%E3%83%AD%E3%83%BC_(%E5%BF%83%E7%90%86%E5%AD%A6)
フロー (英: Flow) とは、人間がそのときしていることに、完全に浸り、精力的に集中している感覚に特徴づけられ、完全にのめり込んでいて、その過程が活発さにおいて成功しているような活動における、精神的な状態をいう。ゾーン、ピークエクスペリエンス、無我の境地、忘我状態とも呼ばれる。
明確に列挙することができるフロー体験の構成要素。
映画アリータのフェイシャルに関する記事が公開されています。一般向けなメイキング動画が公開されていましたが、より詳細な内容の記事です。
アリータは予告見たとき、実写を加工してるのかと思いましたがフルCGなんですね。国内の映像用途のディープラーニングは実験中な感じしますが、海外では普通にワークフローに組み込まれてるのが興味深いです。
https://www.fxguide.com/featured/weta-digitals-remarkable-face-pipeline-alita-battle-angel/
アニマのプロダクションパイプライン構築に関する記事が公開されてます。パイプラインについて「注力している点として、データフローをアプリケーションに依存しない」とありますがジオメトリキャッシュなのかな?
だいぶ前から海外プロダクションではAlembicを使用したパイプラインが主流になってるとの話を見かけますね。リグなどの複雑なデータが含まれてるファイルをレンダリングに回すとエラーやファイルのロード時間が長くなるため、Alembicを使用した方が映画のような大規模なシーンではメリットがあるようです。国内でも映像向けで増えるのかしら。
https://cgworld.jp/interview/201902-ren-kikuchi.html
Spider-Versemのビジュアルに関する記事が公開されています。
https://www.fxguide.com/featured/why-spider-verse-has-the-most-inventive-visuals-youll-see-this-year/
Sony Pictures Imageworks(SPI)のアーティストとビジュアルエフェクトチームは、古い漫画本の外観に敬意を表している見事なビジュアルスタイルを実験しました。
映画の中の漫画要素は次のとおりです。
カラーオフセットの不完全性をエミュレート。
アニメーションの大部分は画像は1フレームではなく2フレームで保持されます。24ではなく1秒あたり12画像です。これはCGではめったにありません。監督は漫画本のスタイルに忠実であり続けるために一時停止したときに、フィルムの各フレームが絵画のように見えることを望んでいました。このトレインショットのようなシーンでは、電車の上に線が配置され、ロールシャッター効果が導入されて、動きのない場所でモーションブラーが発生するようになります。
ストーリーのさまざまな時点で、フレームは複数の漫画本のフレームに分割されます。映画撮影の観点からは、これは本当に頭痛の種でした。
4色印刷の驚くべきデジタル版とクロスハッチインキングとハーフトーンドットの組み合わせを使用して、質感と視覚的な関心を高めています。
コンピュータはすべて正しく処理するので、常に正しい視点とジオメトリを使用できます。アートで興味深く表現力があるのは、人間が創造するものと密接に関連するすべての不完全性です。デザインと感情は正確さとリアリズムよりも優先されました。
漫画のアーティストが遠近感を誇張することは珍しいことではありませんが、3Dでは新しいレベルの複雑さをもたらします。これは映画の中で、街の環境作業の中で大いに行われました。
映画の中でマイルが建物から飛び降りて街に戻ったとき、ニューヨークの建物はすべて彼の周りの輪のように方向づけられています。それらの建物は地面に対して垂直ではありません。ひどく傾いていて、その高さは5倍から8倍まで変わります。
この映画の驚くべき功績の1つは、スクリーン上にそのような異なるスタイルで非常に多くのまったく異なるキャラクターを提供しながら、それらがあたかもそれらが同じ光源によって照らされる同じ物理的空間にあるかのように感じさせることです。
アニメーターは通常1週間に約4秒のアニメーションを作成しますが、Spider-Man:Spider-Verseでは、パイプラインは非常に複雑で画期的なので、1週間に平均1秒のアニメーションしか作成できませんでした。このためより多くのアニメーターを雇ってワークロードを引き受け、独自のビジュアルスタイルを実現しました。結局、30以上の異なる国からのアーティストが異なったスタイルを統合して、映画の作品に貢献しました。
キャラクターリグの大部分は、以前のリグやブレンドシェイプモデルとそれほど変わりませんでした。しかしPeniは大きな例外だ。
アニメの外観を実現するために彼女の顔は「デカール」として置き換えられました。Peniには正式な顔のジオメトリ形状はありません。彼女の外見はアニメーションによるものですが、完全に平らな、そして平らな陰影付きのデカールに変換されます。
この映画は、印刷された漫画本か高められた多くのデバイスやツールを使用しています。最も注目すべきことは、説明文や観客の指示としてスクリーン上のテキストを使用することです。これらのテキストボックスは、カメラの動きの一部としてオーバーレイまたは移動されます。
焦点と深さを示すために、より絵画的なスタイルに移動することに加えて、効果音を強調するためにスクリーン上にクラシカルなテキストを追加します。
サウンドはアニメーション後に行われましたが、チームはサウンドの設計とサウンドエフェクトチームによるアクションの時間を考慮しています。
FANZA の同人作品の人気ジャンルの傾向や年齢層などの統計情報が公開されています。
https://special.dmm.co.jp/fanza/feed/news/fanza-report-2018-doujin?utm_source=twitter&utm_medium=social&utm_campaign=pf_cpr_181227_1