Meta Reality Labsとトロント大学、ベクター研究所、カリフォルニア大学バークレー校の研究者らによる「Pippo: High-Resolution Multi-View Humans from a Single Image」は1枚の人物写真から複数アングルの高解像度画像を生成する技術です!
Pippo: High-Resolution Multi-View Humans from a Single Image
Pippoは1Kマルチビュー拡散変換器です:
- キャプションのない3Bの人間画像で事前学習。
- 2.5Kスタジオキャプチャで学習済み
- ControlMLPによるピクセル整列制御付き
- アテンションバイアスにより、推論時に5倍以上のビューを生成
- より優れた3D評価指標 – 再投影誤差
Pippoは、何気なく撮影した1枚の写真から、人物の1K解像度の密な折り返し動画を生成できる生成モデルである。 Pippoはマルチビュー拡散変換器であり、入力画像の適合パラメトリックモデルやカメラパラメータなどの追加入力を必要としない。 Pippoをキャプションのない3Bの人間画像で事前学習し、スタジオで撮影された人間でマルチビューの中間学習と事後学習を行う。 中間学習では、スタジオデータセットを素早く吸収するため、低解像度で複数(最大48)のビューをノイズ除去し、浅いMLPを用いてターゲットカメラを粗くエンコードする。 ポストトレーニングでは、より少ないビューを高解像度でノイズ除去し、ピクセル整列制御(Spatial anchorやPlucker raysなど)を用いて3D一貫世代を可能にする。 推論時には、Pippoがトレーニング中に見たビューの5倍以上のビューを同時に生成できるようにする、注意バイアス技術を提案する。 最後に、多視点生成の3D一貫性を評価するための改良されたメトリックを導入し、Pippoが単一画像からの多視点人間生成に関する既存の研究を凌駕することを示す。
いやぁ凄いね・・色々応用が出来そうな技術です。
詳細などはプロジェクトページやGithubをご確認ください!
コメント