テキストから人物モーションの生成や合成が可能な技術「MDM: Human Motion Diffusion Model」が登場!
2022/10/07 – Githubにてコードが公開されたのでリンクを追加
MDM: Human Motion Diffusion Model
自然で表現力豊かな人間の動きを生成することは、コンピュータ・アニメーションの聖域である。しかし、動きには多様性があり、それに対する人間の知覚的な感度や、正確な描写の難しさから、難しい課題となっています。そのため、現在の生成ソリューションは、低品質であるか、表現力に限界がある。他の領域で既に顕著な生成能力を示している拡散モデルは、その多対多の性質から人間の運動に対する有望な候補であるが、リソースを消費し、制御が困難な傾向がある。本論文では、分類器を用いない拡散ベースの生成モデルを人体運動領域用に慎重に適応させたMotion Diffusion Model (MDM)を紹介する。MDMはモーション生成の文献からの洞察を組み合わせた変換器ベースである。注目すべきデザインチョイスは、各拡散ステップにおいて、ノイズではなく、サンプルを予測することである。これにより、足の接触損失など、運動の位置と速度に関する確立された幾何学的損失の利用が容易になる。我々が示すように、MDMは汎用的なアプローチであり、異なる条件付けのモードや、異なる生成タスクが可能である。我々は、我々のモデルが軽量なリソースで学習可能でありながら、テキストからモーション、アクションからモーションの主要なベンチマークにおいて最先端の結果を達成することを示す。
MDMフレームワークは、様々な条件付けを可能にする汎用的な設計になっている。本発表では、テキストからモーション、アクションからモーション、そして無条件生成の3つのタスクを紹介する。MDMは、多様性と忠実性をトレードオフにする分類器不要の方法で学習し、同じモデルから条件付きと無条件の両方をサンプリングすることが可能である。テキストからモーションへの変換では、HumanML3DおよびKITベンチマークにおいて最先端の結果を達成し、一貫性のあるモーションを生成することができた。また、ユーザ調査の結果、人間の評価者は42%の確率で、生成したモーションを実モーションよりも好むことがわかった。また、Action-to-Motionでは、HumanAct12とUESTCのベンチマークにおいて、MDMはこのタスクのために特別に設計されたにもかかわらず、最先端技術を上回る性能を示した。
論文のみ公開、ソースコードはComming Soonとなっております。2022年10月7日にGithubにてソースコードも公開されました。この技術がどう発展していくのか、とても楽しみです。今後レイアウトなどもテキストで指定出来るようになれば、テキストだけで3Dドラマみたいなものが作れるようになりそうですね。
コメント