カーネギーメロン大学やマックス・プランク知能システム研究所らの研究者による『WHAM:Reconstructing World-grounded Humans with Accurate 3D Motion』という技術に注目が集まっています。動画から人物のモーションを構築する技術です。
WHAM:Reconstructing World-grounded Humans with Accurate 3D Motion
映像からの人間の3D動きの推定は急速に進歩しているが、現在の手法にはまだいくつかの重要な限界がある。第一に、ほとんどの手法はカメラ座標で人物を推定している。第二に、グローバル座標で人物を推定する先行研究は、多くの場合、平坦な接地面を仮定しており、足の滑りが生じる。第三に、最も精度の高い手法は、計算コストの高い最適化パイプラインに依存しているため、オフラインアプリケーションへの使用が制限される。最後に、既存のビデオベースの手法は、シングルフレームの手法に比べて驚くほど精度が低い。我々はこれらの限界にWHAM (World-grounded Humans with Accurate Motion)で対処する。WHAMはビデオからグローバル座標系で3D人間の動きを正確かつ効率的に再構成する。WHAMはモーションキャプチャデータを用いて2Dキーポイントシーケンスを3Dに持ち上げることを学習し、これをビデオの特徴と融合させ、動きのコンテキストと視覚情報を統合する。WHAMは、SLAM手法から推定されたカメラの角速度を人間の動きと共に利用し、身体のグローバル軌道を推定する。WHAMが階段昇降のような多様な条件下で人間の動きを捉えることができるように、接触に配慮した軌道精密化手法とこれを組み合わせる。WHAMは、複数の実環境ベンチマークにおいて、既存のすべての3D人体運動復元手法を凌駕しています。コードは研究目的で利用可能 。
かなり精度も良さそうです。この手の技術革新スピードの早いこと早いこと…。コードも公開済みで、GoogleColabでもお試し可能。実際に試している方もチラホラおられますよ。
動画からモーション関連サービスは色々登場していますが、こういう新しい技術を物を手元で動かして検証するのも良さそうです。
ちなみにBlenderアドオンのCEB 4D Humansは、早速このWHAMに対応したアップデートを公開しています。
是非チェックしてみてください!
コメント