単一画像からの高速に3Dオブジェクト生成するモデル「TripoSR」

単一画像からの高速に3Dオブジェクトを生成するモデル「TripoSR」が公開されています。

https://stability.ai/news/triposr-3d-generation
https://github.com/VAST-AI-Research/TripoSR

キーポイント

TripoSRはTripo AIと提携し、1枚の画像から高品質な3Dモデルを1秒以内に生成します。
TripoSRは（GPUなしでも）低推論バジェットで動作するため、幅広いユーザーやアプリケーションにとって利用しやすく実用的です。
モデルの重みとソースコードはMITライセンスの下でダウンロード可能で、商業化、個人利用、研究利用が可能です。

私たちはTripo AIと提携し、LRM: Large Reconstruction Model For Single Image to 3D の最近の研究成果にインスパイアされた高速3Dオブジェクト再構成モデルTripoSRを開発しました。この新しい画像から3Dへのモデルは、詳細な3Dオブジェクトを視覚化するための応答性の高い出力で、エンターテインメント、ゲーム、工業デザイン、建築の専門家の高まる需要に応えるように設計されています。

パフォーマンス

TripoSRは、他のモデルと比較してわずかな時間で詳細な3Dモデルを作成することができます。Nvidia A100でテストしたところ、ドラフト品質の3D出力（テクスチャーメッシュ）を約0.5秒で生成し、OpenLRMのような他のオープンなimage-to-3Dモデルを凌駕しました。スピードだけでなく、我々のモデルはGPUの有無に関わらず、完全に利用可能です。

技術的詳細

我々のトレーニングデータ準備には、現実世界で見られる画像の分布をより忠実に再現する多様なデータレンダリング技術が組み込まれており、モデルの汎化能力を大幅に向上させています。学習データには、Objaverseデータセットの高品質なサブセットであるCC-BYを慎重にキュレーションしました。モデル側では、チャンネル番号の最適化、マスク監視、より効率的なクロップレンダリング戦略など、ベースとなるLRMモデルに対していくつかの技術的改良も導入しました。詳細はテクニカル・レポートをご覧ください。

開発者、デザイナー、クリエイターの皆様には、TripoSRの機能を探求し、その進化に貢献し、仕事や業界を変革する可能性を見出していただきたいと思います。

TripoSRモデルのコードはTripo AIのGitHubで、モデルの重みはHugging Faceで公開されています。TripoSRモデルの詳細については、テクニカルレポートをご参照ください。

TripoSRの進捗状況については、Twitter、Instagram、LinkedInでフォローしていただくか、Discordコミュニティにご参加ください。