テキストから最適な人物の3Dモーションを生成する技術「MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model」の論文とコードが公開されています。
MotionDiffuse: Text-Driven Human Motion Generation with Diffusion Model
ヒューマンモーションのモデリングは、現代の多くのグラフィックスアプリケーションにとって重要であり、通常、専門的なスキルを必要とする。そのため、近年の動作生成手法では、自然言語を条件とした人物の動作を直接生成することが可能であり、素人にとってスキルの壁がなくなる。しかし、様々なテキストを入力とする多様できめ細かいモーション生成を実現することは、依然として困難である。そこで我々は、拡散モデルを用いた初のテキスト駆動型モーション生成フレームワークであるMotionDiffuseを提案し、既存の手法に対していくつかの望ましい特性を示す。
1) 確率的マッピング MotionDiffuseは、決定論的な言語-動作マッピングの代わりに、バリエーションが注入された一連のノイズ除去ステップを通して動作を生成する。
2) リアルな合成 複雑なデータ分布のモデリングや、鮮やかなモーションシーケンスの生成に優れています。
3) マルチレベルな操作性。体の部位に対する細かな指示や、時間差のあるテキストによる任意の長さのモーション合成に対応します。実験によると、MotionDiffuseは、テキスト駆動型モーション生成およびアクション条件付きモーション生成において、既存のSoTA手法を圧倒的に凌駕する性能を示しました。また、定性的な分析により、MotionDiffuseが包括的なモーション生成のための制御可能であることを実証しています。
モーション系のこういった技術も続々と登場していますね。
こちらの技術は、論文と、Githubにはコードが公開されております。早くツールに搭載されると良いなぁ。
コメント