オックスフォード大学 視覚幾何学グループのZeren Jiang氏らによる、動画生成AIを活用し映像からシーン形状を再構築する技術アプローチ「Geo4D: Leveraging Video Generators for Geometric 4D Scene Reconstruction」が公開されています!
Geo4D: Leveraging Video Generators for Geometric 4D Scene Reconstruction
動的シーンの単眼3D再構成のためにビデオ拡散モデルを再利用する手法であるGeo4Dを紹介する。 Geo4Dは、このようなビデオモデルによって捕捉される強力な動的事前分布を利用することで、ゼロショットで実データにうまく汎化しながら、合成データのみを用いて学習することができる。 Geo4Dは、複数の補完的な幾何学的モダリティ、すなわち点、深度、光線マップを予測する。 新しいマルチモーダルアライメントアルゴリズムを用いて、推論時にこれらのモダリティや複数のスライディングウィンドウを整列・融合させることで、長尺映像のロバストで正確な4D再構成を実現する。 複数のベンチマークにわたる広範な実験により、Geo4Dは、動的なシーンを扱うように設計されたMonST3Rのような最近の手法も含め、最先端のビデオ奥行き推定手法を大幅に上回ることが示されている。
- Geo4D:動画生成モデルを活用した動的シーンの再構築フレームワークを提案
市販の動画生成AI(例:ビデオディフュージョンモデル)を活用して、動きのあるシーンの形状を再構成する革新的な手法 - 一貫した形状を学習させるための「マルチモーダル幾何表現」を導入
ポイントマップ、深度マップ、レイマップなど、複数の形状データを組み合わせて、訓練中の安定したジオメトリ学習を実現 - テスト時には軽量なマルチモーダル整合処理で形状を統合
類似情報を含む複数の幾何表現を融合し、ブレのない4D再構築を実現 - 動画からの深度推定で最先端(SOTA)性能を達成
加えて、カメラの動き(ポーズ推定)についても従来手法と同等の精度を示す
こういう技術がどんどん進んでいくと、実写映像から動きも含めたリアルな3Dシーンを自動生成する未来が出てくるんですかね。深度情報もかなり安定した結果が得られているみたいですね。今後の展開が楽しみです。プロジェクトページやコードも公開されておりますので、気になる方は是非チェックしてみてください!
コメント