Google Researchチームらによる、テキストから画像への拡散モデルを使用し、NeRF(Neural Radiance Field)を構築する事で、3Dデータ無しで3D形状を生成できる技術「DreamFusion」が登場していました。
2022年10月7日 – 日本語の解説動画を追加
DreamFusion
Happy to announce DreamFusion, our new method for Text-to-3D!https://t.co/4xI2VHcoQW
— Ben Poole (@poolio) September 29, 2022
We optimize a NeRF from scratch using a pretrained text-to-image diffusion model. No 3D data needed!
Joint work w/ the incredible team of @BenMildenhall @ajayj_ @jon_barron#dreamfusion pic.twitter.com/YeG0zaFxuu
近年、テキストから画像への合成において、数十億の画像とテキストのペアで学習した拡散モデルによって飛躍的な進歩があった。このアプローチを3D合成に適用するには、ラベル付けされた3D資産の大規模データセットと3Dデータのノイズ除去のための効率的なアーキテクチャが必要であるが、どちらも現在存在しない。本研究では、これらの制約を回避するために、事前に学習した2次元のテキストから画像への拡散モデルを用いて、テキストから3次元への合成を実行する。本研究では、確率密度蒸留法に基づく損失を導入し、パラメトリック画像生成器の最適化のための事前学習として2次元拡散モデルを使用することを可能にする。この損失を用いて、ランダムに初期化された3次元モデル(Neural Radiance Field: NeRF)を勾配降下法により最適化し、ランダムな角度からの2次元レンダリングが低損失となるようにする。その結果、与えられたテキストの3Dモデルを任意の角度から見たり、任意の照明で照らしたり、任意の3D環境に合成したりすることができるようになる。本手法は、3次元学習データおよび画像拡散モデルの改変を必要とせず、事前学習された画像拡散モデルの有効性を示すものである。
キャプションが与えられると、DreamFusionはImagenというテキストから画像への生成モデルを用いて、3Dシーンを最適化する。我々は、損失関数を最適化することによって拡散モデルからサンプルを生成する方法であるScore Distillation Sampling (SDS)を提案する。SDSは、画像に微分的にマップバックできる限り、3次元空間のような任意のパラメータ空間においてサンプルを最適化することができる。この微分可能なマッピングを定義するために、Neural Radiance Fields(NeRF)に似た3Dシーンパラメタリゼーションを使用する。SDSは単独で合理的なシーンの外観を生成しますが、DreamFusionは正則化と最適化戦略を追加し、ジオメトリを改善します。その結果、学習されたNeRFは、高品質の法線、表面形状、深度を持ち、ランバートシェーディングモデルで再照明可能な、首尾一貫したものとなります。
- テキストから3Dを生成
- 生成サンプルギャラリー:DreamFusion: Text-to-3D using 2D Diffusion
- 生成物はNeRFモデルなのでマーチングキューブアルゴリズムを使用して3Dメッシュ化可能
DreamFusion 日本語解説動画
凄い時代になっていきますね。もはや簡単なものはモデリングすら不要になるかぁ。
こういった素材をどう活用するかが今後重要になってきそうです。論文は公開されておりますが、プロジェクトはまだ未公開かな?楽しみですね。是非サイトをチェックしてみてください。
コメント