ミュンヘン工科大学、トヨタ モーター ヨーロッパ、ウーブン・バイ・トヨタの研究者らによる、スマホなどで撮影された単眼映像から高精度なアニメーション付きの頭部3D Gaussian Splattingを生成する技術「GAF」が発表されていました。
GAF: Gaussian Avatar Reconstruction from Monocular Videos via Multi-view Diffusion
我々は、スマートフォンのような汎用デバイスで撮影された単眼動画から、アニメーション可能な3Dガウスアバターを再構成するための新しいアプローチを提案する。 このような録画映像からフォトリアリスティックな3D頭部アバターを再構成することは、限られた観測のため困難であり、未観測の領域が制約を受けずに残り、新しいビューでアーチファクトを引き起こす可能性がある。 この問題に対処するため、我々はマルチビュー頭部拡散モデルを導入し、その事前分布を活用して、欠損領域を埋め、ガウススプラッティングレンダリングにおけるビューの一貫性を確保する。 正確な視点制御を可能にするために、FLAMEベースの頭部再構成からレンダリングされた法線マップを使用し、ピクセル整列された誘導バイアスを提供する。 また、入力画像から抽出されたVAE特徴に拡散モデルを条件付けし、顔のアイデンティティと外観の詳細を保持する。 ガウシアンアバター再構成のために、反復的にノイズ除去された画像を擬似的な基底真理として使用することで、マルチビュー拡散プリオアを抽出し、過飽和の問題を効果的に緩和する。 フォトリアリズムをさらに改善するために、画像にデコードする前に、潜在的なアップサンプリングを適用して、ノイズ除去された潜在的な情報を洗練する。 本手法をNeRSembleデータセットで評価し、GAFが、新規ビュー合成と新規表情アニメーションにおいて、従来の最先端手法を凌駕することを示す。 さらに、汎用デバイスで撮影された単眼動画から、より忠実なアバター再構成を実証する。
中々の精度ですごいですね!この手の技術は今後もまだまだ発展していきそうですよね。実用化されるのが楽しみです。
現在「GAF」は論文のみ公開されており、Githubページは存在しますがコードは非公開です。
詳細に関してはプロジェクトページをご確認ください。
コメント