南洋理工大学S-Lab、SenseTime Research、上海AI研究所、東京大学、国際デジタル・エコノミー・アカデミー(IDEA)の研究者達による、単眼カメラ映像から人物の動きを検出する技術『SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation』のコードが公開されております。NeurIPS 2023 論文
SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation
表現力豊かな人間のポーズと形状の推定(Scaling Up Expressive Human Pose and Shape Estimation:EHPS)は、身体、手、顔のモーションキャプチャを統合し、多くの応用が可能である。励みになる進歩にもかかわらず、現在の最先端の手法は、依然として限られたトレーニングデータセットに大きく依存している。この研究では、ViT-Hugeをバックボーンとし、多様なデータソースから最大4.5Mインスタンスで学習する、初のジェネラリスト基礎モデル(SMPLer-Xと命名)に向けてEHPSのスケールアップを調査する。ビッグデータと大規模モデルにより、SMPLer-Xは多様なテストベンチマークで高い性能を示し、未知の環境にも優れた移植性を示す。
1)データスケーリングについては、32のEHPSデータセットについて系統的な調査を行い、単一のデータセットで学習したモデルでは扱えないような幅広いシナリオを網羅する。さらに重要なことは、広範なベンチマークプロセスから得られた知見を活用し、学習スキームを最適化し、EHPSの能力を飛躍的に向上させるデータセットを選択することである。
2) モデルのスケーリングについては、ビジョン変換器を利用して、EHPSにおけるモデルサイズのスケーリング則を研究する。さらに、我々のファインチューニング戦略により、SMPLer-Xをスペシャリストモデルに変えることで、さらなる性能向上を実現する。特に、我々の基礎モデルSMPLer-Xは、AGORA(107.2mm NMVE)、UBody(57.4mm PVE)、EgoBody(63.6mm PVE)、EHF(62.3mm PVE、ファインチューニングなし)といった7つのベンチマークにおいて、常に最先端の結果を出している。
この手の技術は色々登場しますね。この先もどんどん品質向上していくんだろうなぁ。
[SMPLer-X」は現在Githubにてコードが公開済みです。気になる方はチェックしてみてください!
コメント