動画拡散モデルの運動知識と骨格ベースアニメーションの制御性を融合するフレームワーク「AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models」のプロジェクトページが公開されています。
AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models
我々は、映像拡散モデルのモーションプリオールと、スケルトンベースのアニメーションの制御可能な構造を橋渡しする、フィードフォワード3DアニメーションフレームワークであるAnimaXを発表する。従来のモーション合成手法は、固定された骨格トポロジーに制限されるか、高次元の変形空間でコストのかかる最適化を必要とする。これに対してAnimaXは、ビデオベースのモーション知識を3D領域に効果的に転送し、任意の骨格を持つ多様な多関節メッシュをサポートします。私たちの手法は、3Dモーションをマルチビュー、マルチフレームの2Dポーズマップとして表現し、テンプレートレンダリングとテキストによるモーションプロンプトを条件として、ビデオとポーズのジョイント拡散を可能にします。ビデオとポーズシーケンス間の空間的・時間的整合を保証するために、共有位置エンコーディングとモダリティを考慮した埋め込みを導入し、ビデオプリオをモーション生成タスクに効果的に転送する。得られたマルチビューのポーズシーケンスは、3D関節位置に三角測量され、インバースキネマティクスを介してメッシュアニメーションに変換される。160,000のリギングされたシーケンスからなる新たにキュレートされたデータセットでトレーニングされたAnimaXは、VBenchにおいて汎化、モーション忠実度、効率性において最先端の結果を達成し、カテゴリーにとらわれない3Dアニメーションのためのスケーラブルなソリューションを提供します。
- テキストで表現された動きをテンプレートから生成
- 多視点の2DポーズマップとRGB動画を同時生成
- 逆運動学で3Dスケルトンアニメーション化
- カテゴリ非依存:人型・動物・機械・家具にも対応
- 高精度×高速:学習済みモデルを用いたフィードフォワード処理で数分以内に生成可能
- 大規模データで訓練:約16万シーケンスのリグ付きモーションデータ使用arxiv.org
簡単に言うと「動画を作るAIを応用して、3Dキャラの動きを自動で作ってくれる技術」って感じですかね。
結構良さそうなアプローチだと思いました。Githubの方はComing Soonとなっています。公開が楽しみですね。
コメント