NVIDIA Spatial Intelligence Lab (SIL)による700時間分の光学モーションキャプチャデータで学習されたモーション拡散モデル「Kimodo(kinematic motion diffusion)」が発表されました!テキストなどから人間やロボットのモーションが生成可能です!
Kimodo: Scaling Controllable Human Motion Generation
ロボット工学、シミュレーション、エンターテインメント分野における応用において、高品質な人間の動作データはますます重要になっています。最近の生成モデルは、テキストプロンプトや姿勢に対する運動学的制約といった直感的な入力を通じて人間の動作合成を可能にする、有望なデータソースとなっています。しかし、公開されているモーションキャプチャ(mocap)データセットの規模が小さいため、これらのモデルの動作品質、制御精度、および汎化能力は制限されてきました。本研究では、700時間分の光学モーションキャプチャデータを用いて学習された、表現力豊かで制御性の高い運動学的なモーション拡散モデル「Kimodo」を提案する。当モデルは、テキストや、全身のキーフレーム、疎な関節位置・回転、2Dウェイポイント、高密度な2Dパスといった包括的な運動学的制約を通じて容易に制御されつつ、高品質なモーションを生成する。これは、慎重に設計された動作表現と、ルーツおよびボディの予測を分解して動作アーティファクトを最小限に抑えつつ、柔軟な制約条件付けを可能にする2段階のノイズ除去アーキテクチャによって実現されている。大規模モーションキャプチャデータセットを用いた実験により、主要な設計上の決定が正当化され、データセットサイズとモデルサイズのスケールが性能に与える影響が分析されている。
- テキストから動作の生成:Kimodoは、テキストによる指示を通じて直感的に操作でき、多様な動作を生成することができます。
- 全身の拘束:モデルは、運動に対する運動学的姿勢の拘束条件を課すことができます。例えば、特定のフレームにおける全身の関節位置を固定するといったことが可能です。コンストレイントは赤い骨格として視覚化されます。
- エンドエフェクタの拘束:手や足(エンドエフェクタ)のさまざまな組み合わせについても、関節の位置や回転によって拘束することができます。これらの動画では、赤い色で示されている部分が拘束されている関節です。
- ルート制約:キャラクターの全体的な移動は、2Dウェイポイントと高密度パスによって制御できます。当社の滑らかなルートモーション表現により、自然な骨盤の動きを伴いながら、直線や曲線のパスを忠実に追従することが可能です。
これまた良さそうな物が出てきましたね。
プロジェクトページ、Githubにはコード、そしてデモページが公開されています。
是非チェックしてみてください!













コメント