テキストプロンプトから3D形状を1秒以内に作成する「LATTE3D 」

Nvidia がテキストプロンプトから現実世界のオブジェクトのテクスチャモデルを生成する「LATTE3D 」のデモビデオを投稿しました。

https://blogs.nvidia.com/blog/latte-3d-generative-ai-research/

Instant Latte : NVIDIA Gen AI Research が 3D 形状を 1 秒以内に作成

LATTE3D モデルは、テキストプロンプトを、仮想世界への配置に役立つ高品質の 3D 形状に迅速に変換します。

NVIDIA の研究者たちは、LATTE3Dと名付けられた最新のテキストから3Dへの生成AIモデルに、ダブルショットのアクセラレーションを投入しました。

仮想3Dプリンターのように、LATTE3Dはテキスト入力を1秒以内にオブジェクトや動物の3D表現に変換します。

標準的なレンダリング・アプリケーションに使用される一般的なフォーマットで作成された生成された形状は、ビデオゲーム、広告キャンペーン、デザイン・プロジェクト、ロボット工学の仮想訓練場などを開発するための仮想環境に簡単に提供することができます。

「1年前は、AIモデルがこのクオリティの3Dビジュアルを生成するのに1時間かかっていました。現在の技術水準は、10秒から12秒程度です」と、トロントを拠点とするAIラボチームがLATTE3Dを開発したNVIDIAのAI研究担当副社長、サニャ・フィドラー氏は語った。

この進歩は、NVIDIA Researchのデモに使用されたNVIDIA RTX A6000のような単一のGPUで推論を実行する場合、LATTE3Dがほぼ瞬時に3D形状を生成できることを意味します。

発想、生成、反復：サイクルの短縮

ゼロからデザインを始めたり、3Dアセットライブラリを探し回ったりする代わりに、クリエイターはLATTE3Dを使用することで、アイデアが浮かんだらすぐに詳細なオブジェクトを生成することができます。

このモデルは、各テキストプロンプトに基づいていくつかの異なる3D形状オプションを生成し、クリエイターに選択肢を与えます。選択されたオブジェクトは、数分以内に高品質に最適化されます。その後、ユーザーは、グラフィックス・ソフトウェア・アプリケーションや、ユニバーサルシーン記述（OpenUSD）ベースの3Dワークフローやアプリケーションを可能にするNVIDIA Omniverseなどのプラットフォームに形状をエクスポートすることができます。

研究者たちは、LATTE3Dを2つの特定のデータセット（動物と日常的なオブジェクト）で訓練しましたが、開発者は同じモデル・アーキテクチャを使用して、他のデータタイプでAIを訓練することができます。

例えば、3D植物のデータセットで訓練すれば、LATTE3Dのバージョンは、ランドスケープデザイナーがクライアントとブレインストーミングをしながら、庭のレンダリングに樹木、花の咲く茂み、多肉植物を素早く記入するのに役立つでしょう。このモデルは、家庭の3Dシミュレーションに必要なアイテムを生成することができ、開発者は実世界でテスト・配備される前のパーソナル・アシスタント・ロボットのトレーニングに使用することができます。

LATTE3Dは、NVIDIA A100 Tensor Core GPUを使って学習されました。3D形状に加えて、ChatGPTを使用して生成された多様なテキストプロンプトでモデルをトレーニングし、特定の3Dオブジェクトを説明するためにユーザーが思いつく可能性のあるさまざまなフレーズを処理するモデルの能力を向上させました。たとえば、さまざまな犬科の種を特徴とするプロンプトを理解するなどです。すべて犬のような形状を生成する必要があります。