浙江大学 CAD&CG研究所、オックスフォード大学、Ant Research(アント・グループ研究所)、Pixelwise AI、ByteDance Seedチームの共同研究チームが、3Dポイントトラッキングの新技術「SpatialTrackerV2」を発表。カメラの動き、シーンの形、そして個々のピクセルの動きをまとめて一気に推定できる画期的な学習モデルです。
SpatialTrackerV2
SpatialTrackerV2は、単眼映像中の任意の2Dピクセルのワールドスペース3D軌跡を推定する、3Dポイントトラッキングのための新しいフレームワークです。オフラインの奥行きとポーズ推定に依存する従来の手法とは異なり、我々のアプローチは、3Dモーションをシーンジオメトリ、カメラのエゴモーション、およびきめ細かなポイント単位のモーションに分解し、すべてを完全に微分可能なエンドツーエンドのアーキテクチャで実現します。この統一された設計により、合成シーケンス、ポーズをとったRGB-Dビデオ、ラベルのない実写映像など、多様なデータソースに対してスケーラブルな学習が可能となる。ジオメトリとモーションを共同で学習することで、SpatialTrackerV2は、2Dトラッキングとダイナミック3D再構成においても優れた結果を出すと同時に、これまでの3Dトラッキング手法に明らかな差をつけ、大幅な改善を達成しました。
SpatialTrackerV2 は、単眼(1つのカメラ)で撮影された動画から「ピクセル単位で3Dの動き(トラジェクトリ)」を推定できる革新的なモデルです。これまでの3Dトラッキングは、カメラの動き(エゴモーション)とシーンの形(ジオメトリ)、さらにピクセルの細かな動き(パーティクルのような情報)をそれぞれ別々に推定していましたが、SpatialTrackerV2はそれらすべてを 一つのネットワークで一気に処理 できます!
- 動画からの3D再構成が高速&高精度!
10〜20秒で1シーケンスの処理が完了。従来手法より大幅に速く、精度も上。 - 1ピクセル単位で3Dの動きを追える!
単なるオブジェクトトラッキングでなく、背景や細かなディテールもキャッチ。 - すべてをエンドツーエンドで処理!
複雑な前処理や外部の深度・ポーズ推定器は不要。全自動で高品質。 - 実験結果で他の手法を圧倒!
既存の3Dトラッキング手法すべてを明確に上回る性能を示しています。 - 合成データ・RGB-D・実写など多様なデータで学習可能!
汎用性が高く、現実の映像データにも強い。
これは合成作業が捗る!すぐにでも実用化してほしい技術ですね。Githubにはコードも公開済みで、Hugging Faceにてオンラインデモも利用可能です。是非チェックしてみてください!
リンク
🚀 We release SpatialTrackerV2: the first feedforward model for dynamic 3D reconstruction and 3D point tracking — all at once!
— Yuxi Xiao (@YuxiXiaohenry) July 8, 2025
Reconstruct dynamic scenes and predict pixel-wise 3D motion in seconds.
🔗 Webpage: https://t.co/B8widtJ6DT
🔍 Online Demo: https://t.co/sY9iO7wCgT pic.twitter.com/uSgatvHNGp
コメント