参考資料

Neuralangeloによる携帯電話からのニューラルサーフェス再構成

先日Nvidiaが発表したNeuralangeloに関する記事が公開されています。

https://www.fxguide.com/quicktakes/neural-surface-reconstruction-from-a-phone-with-neuralangelo/

 

Neuralangeloによる携帯電話からのニューラルサーフェス再構成

fxguideでは、NeRFの来るべきパワーについて書いてきましたが、NVIDIAはこの分野でのリーダー的存在です。多くの場合、アーティストは、デジタルツイン、コピー、またはデジタル複製を作成するために、環境や小道具をサンプリングする必要があります。
写真測量は、必要な画像の数という点で、現実的な問題を提起しています。NVIDIAは、NeRF技術を使用して3Dモデルを作成するために、携帯電話からのビデオを使用する研究を発表したばかりです。

ニューラルサーフェス再構成は、画像ベースのニューラルレンダリングを使用して高密度の3Dサーフェイスを回復する強力な方法であることがすでに示されていますが、現在の多くの方法は、十分に詳細なサーフェス構造を持つモデルを提供することに苦労しています。

 

この問題に対処するため、NVIDIA は多解像度 3D ハッシュグリッドのパワーとニューラルサーフェスレンダリングを組み合わせた Neuralangelo をリリースしました。このアプローチは、2つの重要な要素によって実現されています。

1つ目は、スムージング操作として高次導関数を計算するための数値勾配を使用することです。次に、Neuralangeloは、生成されたハッシュグリッドに対して、異なるレベルのディテールを制御する粗から細への最適化を使用しています。

Neuralangeloは深度マップのような追加のカメラ入力がなくても、従来の手法よりもはるかに優れた忠実度で、クリップから高密度の3D表面構造を効果的に生成することができます。これにより、ドローンや携帯電話の動画などのビデオキャプチャから、詳細な大規模シーンの再構成が可能になります。

Neuralangeloは、複雑なディテールやテクスチャを持つ3D構造を生成するので、VFXプロフェッショナルは、これらの3Dオブジェクトをお気に入りの3Dアプリケーションやデザインアプリケーションにインポートし、さらにプロダクション用に編集することができます。

 

なぜフォトグラメトリーではダメなのか?

通常の画像ベースのフォトグラメトリー技術では、キャプチャするシーンを表現するために「ボリューメトリック・オキュパンシー・グリッド」を使用します。

フォトグラメトリーの各ボクセルには、様々なオリジナルカメラビューからの対応する投影画像ピクセルの間に厳密な色の一貫性がある場合、それを「占有」とマークされます。この測光学的整合性の仮定は、自動露出を使用する場合や、反射面(非ランバートリアン)材料を撮影する場合に、一般的に失敗します(もちろん、現実世界では極めて一般的です)。

NeRF技術では、NeRF 3D再構成を行う際に、複数のビューにわたってこの色の恒常性制約を必要としなくなりました。比較すると、NeRFはビュー依存の効果でフォトリアリスティックな結果を達成します。つまり、フォトグラメトリーとは異なり、サーフェスは見る角度によって変化する様を捉えているようです。

 

どのように動作するのでしょうか?

マルチビューステレオ技術を使って点群を構築することもできますが、これはしばしばサーフェスの欠落やノイズにつながり、非ランバートゥアンの材料に苦労します。NeRFは、座標ベースの多層パーセプトロン(MLP)を使用してシーンを暗黙の関数として表現するため、ビュー依存の効果を持つフォトリアリスティックな画像を実現します。3Dの空間位置を色と体積の密度でマッピングするMLPで3Dシーンを符号化します。MLPの固有の連続性をニューラルボリュームレンダリングで活用することで、空間位置間を補間する最適化されたサーフェスを実現し、滑らかで完全なサーフェス表現が可能になります。これらのMLPニューラルレンダリングの問題点は、スケール感がないことでした。しかし、最近の論文Instant neural graphics primitives with a multiresolution hash encodingがこれに対処しました。この新しいスケーラブルな表現は、Instant NGP(Neural Graphics Primitives)と呼ばれています。

Instant NGPは、マルチ解像度ハッシュエンコーディングと軽量MLPを用いたハイブリッド3Dグリッド構造を導入しており、スケーラブルな表現が可能です。このハイブリッド表現は、ニューラルフィールドのパワーを大幅に向上させ、オブジェクトの非常に細かいディテールを表現することに大きな成功を収めました。NVIDIAの新作では、この新技術を用いた高忠実度のサーフェス再構成として、Neuralangeloを提供しています。Neuralangeloは、3Dシーンのニューラルレンダリング表現としてInstant NGPを採用し、ニューラルサーフェスレンダリングによって複数の異なるビューから作業するように最適化されています。

Neuralangeloはマルチビュー画像からシーンを再構築します。Neuralangeloは、ビデオクリップからカメラビューに沿って3D位置をサンプリングし、マルチ解像度ハッシュエンコーディングを使用して位置を符号化します。高次微分の数値勾配と粗から細への最適化戦略を用いて、ニューラル・サーフェス再構成のためのマルチ解像度ハッシュ・エンコーディングの力を提供するのです。

Neuralangeloは、物体中心のキャプチャや屋内外の大規模なシーンの濃密なシーン情報を極めて高い精度で効果的に復元し、通常の映像から詳細な大規模シーンの復元を可能にします。

 

Neuralangelo'sは、屋根の板、ガラスの窓ガラス、滑らかに輝く大理石など、実世界の複雑なテクスチャや複雑な素材を持つオブジェクトを翻訳することができます。 このメソッドの忠実度の高い出力により、その3D再構成はより有用なものとなります。
「Neuralangeloが提供する3D再構成機能は、クリエイターにとって大きなメリットとなり、デジタル世界で現実世界を再現するのに役立ちます」と、研究部門のシニアディレクターで論文の共著者であるMing-Yu Liuは語っています。「このツールにより、開発者は最終的に、小さな彫像から巨大な建物まで、詳細なオブジェクトを取り込んで、仮想環境、セットリファレンス再構成やゲーム、デジタルツインで使用できるようになります」

コメントを残す