Tencentと上海Jiao Tong大学の研究者たちによる1枚の人物のリファレンス画像を動かす技術「MimicMotion : High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance」が登場していました。過去技術より安定した結果を得られるそうです。
MimicMotion : High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance
近年、生成人工知能は画像生成の分野で大きな進歩を遂げ、様々な応用が生み出されている。しかし、映像生成は、制御性、映像の長さ、ディテールの豊富さなど、様々な面で未だ大きな課題を抱えており、この技術の応用や普及を妨げている。本研究では、MimicMotionと名付けられた制御可能な動画生成フレームワークを提案する。従来の手法と比較して、我々のアプローチにはいくつかの特徴がある。第一に、信頼性を考慮したポーズガイダンスにより、時間的な滑らかさを達成することができるため、大規模な訓練データによりモデルの頑健性を向上させることができる。第二に、ポーズ信頼度に基づく領域損失増幅は、画像の歪みを大幅に緩和する。最後に、長い滑らかな動画を生成するために、漸進的な潜在融合戦略を提案する。これにより、任意の長さの動画を許容可能なリソース消費で生成することができる。広範な実験とユーザースタディにより、MimicMotionは、様々な側面において、従来のアプローチよりも大幅に改善されていることを示す。
MimicMotionは、画像から映像への拡散モデルと、新しい信頼性を考慮したポーズガイダンスを統合しています。このモデルの学習可能なコンポーネントは、時空間U-Netと、ポーズシーケンスを条件として導入するためのPoseNetで構成される。確信度考慮ポーズガイダンスの主な特徴は以下の通りである: 1)ポーズシーケンスにはキーポイントの信頼度スコアが付加され、モデルはスコアに基づいて適応的にポーズガイダンスの影響力を調整することができる。2) 信頼度の高い領域は、損失関数においてより大きな重みを与えられ、学習における影響を増幅する。
1枚の画像があれば簡単に動かすことが出来る系技術はこれまでもたくさん登場していましたが、かなり安定してきましたね。このレベルなら色々使い所も多そうです。
「MimicMotion」はコードも公開中、ComfyUI向けにも公開されておりますので、手軽に導入することが出来そうです。是非チェックしてみてください!
コメント