ボリュームビデオキャプチャエディター「HoloEdit」

ボリュームビデオキャプチャ用のノンリニアエディター「HoloEdit」の紹介記事が公開されています。フレーム間でトポロジーが一致したメッシュ作成、マテリアル推定、ディープラーニングを使用したリグ作成など興味深いソフトですね。

https://arcturus.studio/holoedit/
https://www.fxguide.com/fxfeatured/arcturus-volumetric-video-editing/

HoloEditはArcturus社のHoloSuiteに含まれる、ボリューム映像用のノンリニアエディターです。インタラクティブな編集、タッチアップ、リファインメント、シークエンスなどを可能にします。

同社は、編集と圧縮のためのツールを制作し、プロジェクトの時間と複雑さを軽減するとともに、多くの一般的な3Dボリューメトリックファイル形式をサポートしています。HoloEditは、VFXだけでなく、没入型仮想現実や拡張現実のプロジェクトで、ボリューメトリックにキャプチャしたパフォーマーのオーサリング、編集、ストリーミングに使用することができます。

ボリウムビデオキャプチャースタジオの数は、2021年1月から2021年12月までに45％増加しました。スタジオやポータブルリグの増加に伴い、データのキャプチャはより簡単に、より身近になりましたが、多くのVFXプロデューサーやエディターにとって、キャプチャデータの編集は依然として現実的な懸念事項となっています。

同社は20人以上の従業員を抱え、昨年は事業拡大のために500万ドル以上の資金を調達しました（Bitkraft Venturesがラウンドをリード）。同社は、Netflix、Autodesk、Pixar、Dreamworks、Google、YouTube、Uberの製品、アート、サイエンスのバックグラウンドを持つ経営陣によって設立されました。

ArcturusのCEOであるKamal Mistry氏は声明の中で、同社は現実からキャプチャしたデジタル人型ホログラムを作成し、リアルタイムで視聴者と対話できるようにカスタマイズすることを目的としていると述べています。例えば、デジタル接客係、人間アバター、バーチャル3Dコンサート、ファッションランウェイとして、またスポーツ中継ではプロスポーツ選手の視点を視覚化します。

2019年から3～6カ月ごとにソフトを更新している。顧客はアーティストが多く、ユーザーはMusicや3Dコンサート、VFXなどだが、産業用やトレーニング用にも強いユーザー層があるとのこと。また、現在はスポーツ分野での動きも活発です。

そのためには、単なるポイントサンプリングやフレームに依存しないフォトグラメトリーメッシュの制作から脱却する必要があります。多くの人が複数のデジタル一眼レフカメラで構成されたキャプチャボリュームで、誰かから一度だけ撮影された画像を生成しているのを見たことがあると思います。この方法の問題点は、各フレームがユニークなソリューションであるため、連続した動きを編集することは不可能に近いということです。さらに、テクスチャやUV空間が大きく不一致することがあるため、服のアイテムであっても再ライティングや修正は、従来の2Dパイプラインのアプローチでアイテムの色をキーイングするだけでなく、非常に困難なものとなっています。

共同設立者のDevin Horsman氏は「HoloEditは、リアルさや迅速なターンアラウンドなど、ボリューメトリックキャプチャーのあらゆる利点を活用しながら、従来の3Dパイプラインの編集とコントロールを提供することを目的としている」と説明しています。「アニメーション、リライティング、マテリアルプロパティの変更、メッシュのタッチアップなど、これまでボリューメトリックビデオでは困難だったCGの機能をすべて提供できるようにしたいと考えています。

HoloSuiteは現在、様々なボリューメトリックキャプチャーのコア技術によって生成される様々なデータセットのほとんどを扱えるように作られています。また、Alembic、.OBJ、.PLYなどのオープンフォーマットや、多くの独自フォーマットにも対応しています。

時間的なトポロジーの一貫性

最もシンプルなキャプチャーボリューム出力では、アーティストはフレーム1とフレーム2、フレーム3などでは全く異なるメッシュを受け取ることになります。このため、メッシュを編集し、その編集をそのフレームを越えて存在させることは困難です。HoloEditはトポロジメッシュの安定化フェーズでこれを解決しています。完全な自動化からアーティスト主導のソリューションまで、さまざまな方法でこれを行います。

現在の最先端は、10フレームから100フレームのクリップセグメントを、一貫した単一のトポロジーで取得することです。それ以降は次のセグメントのために追加編集が必要になります。トポロジーは、そのセグメントのマスターフレームに基づき、フレームごとにフルトポロジー（フルサイズ）が存在するように解決されます。セグメント間やセグメント境界では、不連続性が問題になることがあります。たとえば、サーフェス法線が完全に再計算された場合、セグメントの変更時に再ライティングがポップアップします。「そのため、単純なメッシュ法線（セグメント境界を越えるときにポップアップする）ではなく、グローバルな方向性テクスチャサーフェスマップに取り組んでいます」とHorsman氏は概説します。

サーフェスペインタリー編集のためにHoloEditは特別なペインタリーツールを提供し、アーティストは隣接するビデオセグメント間でUVマッピングが全く異なる場合、同じ投影テクスチャ一貫性でセグメント境界を横断することができます。例えば、Tシャツのロゴをペイントアウトする場合、ボリューム映像の開始時に、各セグメント分割で、そのペイントアウトを編集して新しいセグメントに再投影し、新しいUV空間が問題を起こす場合は編集を調整することが可能です。

また、HoloEditが同社のストリーミングソリューションHoloStreamとインターフェースできるように、パイプラインの後半でデータを圧縮しますが、編集中はデータは保持され、圧縮や妥協はしません。例えば、オフラインのVFX編集では、圧縮は必要ありませんし、HoloEditでも義務付けられていません。

リライティング

HoloEditedの価値のある点の1つは、ボリューメトリックキャプチャーのリライティング機能です。ほとんどのボリューメトリックソリューションは、アルベド、カラー、テクスチャ、および頂点ごとの法線を含むメッシュをキャプチャします。通常、メッシュの密度はかなり高く、1フレームあたり5万から25万トライアングルですが、それでもメッシュソリューションが複雑なリライティングに必要なディテールやサーフェス法線を十分に持っていることは稀です。シャープなエッジは滑らかになり、顔は平均化され、単純化されすぎて微妙なリライトができない感じです。また、すべてのメッシュは1つの「オブジェクト」であり、人物は別々のBRDFを持つ別々のオブジェクトで構築されているという感覚はありません。また、時間経過による一貫性もありません。

HoloEditは、まず、スキャンを同じタイプのマテリアルに識別またはセグメント化しようとします。表面上の与えられた点に対して、プログラムは「マテリアルセグメンテーション」を実行します。次に、それぞれのマテリアル特性を推定しようとします。この段階が「マテリアル推定」です。マテリアル分割とマテリアル推定を組み合わせることで、ユーザーは単純な2Dフィルタやキーイングアプローチに頼ることなく、スキャンデータを有意義に編集・調整することができる。これは、同社が積極的に取り組んでいる研究分野である。

また、機械学習を利用して、「スーパー法線」を提供するML超解像も研究しています。この推論されたソリューションは、より妥当なサーフェース法線の再照明へのパスを提供します。

これらのツールのすべてが常に完璧なソリューションを提供するわけではありませんが、同社は3Dコミュニティを相互に関連し、協力的であると考えているため、パイプラインに配置することを視野に入れて制作しているものもあります。時には、ソリューションの90%を提供することで、他のツールがこの分野の最も困難な問題に対処し、磨きをかけることができるのです。Arcturusは、複雑で革新的なパイプラインの良きパートナーであり、貢献者でありたいと考えています。特に、彼らが研究している問題の複雑さを考えると、なおさらです。Arcturusは、例えばHoloSuite to MayaやHoloSuite to Mariをプラグインとして公開しています。

リギング

アニメーションやマニピュレーションを可能にするために、HoloSuiteのツールはスキャンされたアクター用のリグを構築します。このプロセスでは、複数のカメラアングルを使用して、リグの正しいポーズを推測します。この分野では、2D画像からリグを推定することに大きな意義がありましたが、HoloSuiteのHoloEditのツールは、複数のカメラが同時に撮影することを利用することができます。彼らのソリューションは、それらすべてのカメラ位置からリグされた骨の相関関係を探りますが、同時に時間的な相関関係も探ります。これがないと、ある瞬間だけ解決した「完璧な」ソリューションが、実際には時間とともにボーンの長さが変化することになり、非常に好ましくないことになるのです。HoloEditは後のアニメーションのために安定した一貫性のあるプラットフォームを提供するすべてのデータの最適なフィットを行うように努める空間的および時間的ソリューションを提供します。

16ボーンリグは、一般的なフォーマットに簡単にエクスポートすることができます。このプロセスには、高度なディープラーニングAIと、より伝統的な統計的最適化アルゴリズムの両方が含まれています。このリグには現在、手用のボーンがありませんが、これは通常のキャプチャボリュームリグで全身を撮影したときの俳優の指の解像度に起因するもです。全高のカメラ筐体やステージのビジュアルキャプチャーの解像度は、通常、多関節の指や手に対して高品質で正確なビジョンを提供するのに十分ではありません。Arcturusはこの問題に取り組み、より高密度の32ボーンリグに移行しています。Horsmanは、「私たちは、まだ市場に出ていない非常に高品質で高解像度のキャプチャセットアップを見たことがありますが、現在、私たちの顧客の大部分に価値を提供しようとしています」とコメントしています。解像度が上がるにつれて、より複雑なリギングに対応する予定です。

多くのキャラクターには、リグが対応する一次モーションと、髪や服の流れのような二次モーションがあります。二次モーションは、基礎技術の一部としてキャプチャされ、現在はユーザーには見えませんが、「今後リリースする、より複雑なスケルトンに組み込まれる予定です」とHorsman氏は付け加えました。「そして、シミュレーションの基礎となり、ユーザーがキャラクターをアニメーション化する際に、物理的にもっともらしい動きをさせることができるようになります」。

ハンドバッグなどの小道具は、キャプチャー・ソリューションから取り除くことができます。また、3次元の領域を定義し、その領域内の特定の色域のデータを削除することも可能です。「これは3Dグリーンスクリーンのようなものです。キャプチャボリュームで人物と車を撮影できる可能性は低いですが、車のドアの代用品を用意することで、俳優が手を伸ばすことができるようになることが重要です。これは、ポストキャプチャーのリグが非常に重要であることを示す良い例です。キャプチャーをバーチャルカーやデジタル3Dカーと組み合わせたときに、アクターの手を実際の車のドアと正確に一致させるために使用することができます。