中国の清華大学による、テキストから3DモデルやNeRFを生成出来る技術『ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation』が公開されました。
ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation
スコア蒸留サンプリング(SDS)は、事前に学習された大規模なテキスト-画像拡散モデルを蒸留することにより、テキスト-3D生成において大きな期待を集めているが、過飽和、過平滑、低ダイバーシティーの問題に悩まされている。本研究では、3DパラメータをSDSのように定数ではなく、ランダム変数としてモデル化することを提案し、テキスト-3D生成における前述の問題を説明し、対処するための原理的な粒子ベースの変分フレームワークである変分スコア蒸留(VSD)を提示する。SDSはVSDの特殊なケースであり、CFGの重みが小さくても大きくても貧弱なサンプルになることを示す。これに対し、VSDは拡散モデルからの祖先サンプリングとして様々なCFG重みでうまく機能し、共通のCFG重み(すなわち7.5)で多様性とサンプル品質を同時に向上させる。さらに、蒸留のタイムスケジュールや密度の初期化など、テキストから3Dへの設計空間における様々な改善点を提示する。これらは蒸留アルゴリズムと直交するものであるが、まだ十分に検討されていない。ProlificDreamerと名付けられた我々のアプローチでは、高いレンダリング解像度(512×512)と、豊かな構造と複雑な効果(例えば、煙や滴)を持つ高忠実度のNeRFを生成することができます。さらに、NeRFから初期化され、VSDで微調整されたメッシュは、緻密でフォトリアルな仕上がりとなっています。
もう何も驚かないぞ!この手の技術は行くところまでいってしまうでしょうね!
詳細や論文についてはプロジェクトのページをご確認ください!
コメント