カリフォルニア大学マーセド校とAdobe Researchによる人間の顔の単一画像から忠実度の高い3Dガウシアン頭部表現を生成する技術「FaceLift」を発表しました。
FaceLift: Single Image to 3D Head with View Generation and GS-LRM
FaceLiftは、1枚の画像から360度の頭部を高速かつ高品質に再構成する、新しいフィードフォワードアプローチである。 我々のパイプラインは、まず、単一の顔入力から頭部の一貫した側面と背面のビューを生成するマルチビュー潜在拡散モデルを採用する。 これらの生成されたビューはGS-LRM再構成器への入力となり、ガウススプラットを用いて包括的な3D表現を生成する。 本システムを訓練するために、合成3D人頭アセットを用いたマルチビューレンダリングのデータセットを開発する。 拡散ベースのマルチビュー・ジェネレータは合成頭部画像のみで訓練され、GS-LRM再構成器はObjaverseで初期訓練を受けた後、合成頭部データで微調整を行う。 FaceLiftは、同一性を保持し、再構成間でビューの一貫性を維持することに優れています。 合成データのみで訓練されたにもかかわらず、我々の手法は実世界の画像に対して顕著な汎用性を示す。 広範な定性的・定量的評価を通じて、FaceLiftが3D頭部再構成において最先端の手法を凌駕することを示し、実世界の画像における実用的な適用可能性と頑健な性能を強調する。 単一画像再構成に加え、FaceLiftは4Dノベルビュー合成のためのビデオ入力をサポートし、3Dフェイシャルアニメーションを可能にする2Dリアニメーション技術とシームレスに統合します。
この手の技術はどんどん精度が向上している印象があります。
詳細はプロジェクトのページや論文をチェックしてみてください!
コメント