清華大学やDeepSeek AIなどの研究者たちによる、より高精度なText-to-3Dモデル『DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior』が公開されています。
DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior
我々はDreamCraft3Dを発表する。これは、高忠実度で首尾一貫した3Dオブジェクトを生成する階層的3Dコンテンツ生成手法である。我々は、ジオメトリ・スカルプティングとテクスチャ・ブーストの段階をガイドするために、2D参照画像を活用することによってこの問題に取り組む。本研究の中心的な焦点は、既存の研究が遭遇している一貫性の問題に対処することである。首尾一貫してレンダリングされるジオメトリをスカルプトするために、ビュー依存の拡散モデルを介してスコア蒸留サンプリングを実行する。この3D事前処理は、いくつかの学習戦略とともに、ジオメトリの一貫性を優先させるが、テクスチャの忠実性は妥協する。さらに、テクスチャに特化したBootstrapped Score Distillation(BSD)を提案する。我々は、最適化されるシーンの3D知識を付与するために、シーンの拡張レンダリング上でパーソナライズされた拡散モデルであるDreamboothを訓練する。この3Dを意識した拡散事前処理からのスコア抽出は、シーンのビューに一貫したガイダンスを提供する。注目すべきは、拡散事前予測と3Dシーン表現を交互に最適化することで、相互に補強し合う改善を達成していることです。最適化された3Dシーンは、シーン固有の拡散モデルの学習を助け、3D最適化のためのビューコンシステントなガイダンスをますます提供します。最適化はこのようにブートストラップされ、実質的なテクスチャブーストにつながる。DreamCraft3Dは、階層的生成の全体を通して調整された3Dプリオールにより、フォトリアリスティックなレンダリングで首尾一貫した3Dオブジェクトを生成し、3Dコンテンツの最先端を進めます。
DreamCraft3Dは、テキストプロンプトから生成された2D画像を利用して、ジオメトリのスカルプトとテクスチャブーストの段階をガイドします。ジオメトリをスカルプトする際、ビュー条件付き拡散モデルは、ジオメトリの一貫性を確保するために重要な3Dガイダンスを提供します。その後、周期的最適化を行うことで、テクスチャの品質を向上させます。マルチビューレンダリングを補強し、それを使って拡散モデルDreamBoothを微調整し、シーンを最適化するためにマルチビューで一貫性のあるグラデーションを提供します。進化する拡散事前分布から蒸留する損失を、bootstrapped distillation samplingと呼ぶ。
まずは高品質の2D参照画像を生成し、その後3Dに変換するという段階的な手法を採用。
いやぁこの分野の技術発展がすごいぞ…
まだ完璧では無いものの、用途次第では現時点でも使い所がありそうなクオリティです。
既に論文やGithubページも公開済みのようです。
その他詳細はプロジェクトページをご確認ください。
コメント