NVIDIA&トロント大学&Vector AI研究所の研究チームによる、1枚の画像や動画からライティング環境を推定し、HDRI環境マップを生成するAIモデル「LuxDiT: Lighting Estimation with Video Diffusion Transformer」が発表されております。
LuxDiT: Lighting Estimation with Video Diffusion Transformer
1枚の画像や動画からシーンの照明を推定することは、コンピュータビジョンやグラフィックスにおける長年の課題である。学習ベースのアプローチは、捕捉にコストがかかり、多様性に制限のあるグランドトゥルースのHDR環境マップの希少性に制約されている。最近の生成モデルは、画像合成のための強力な事前分布を提供する一方で、間接的な視覚的手がかりへの依存、グローバル(非局所的)コンテキストを推測する必要性、および高ダイナミックレンジ出力の回復のために、照明推定は依然として困難である。我々はLuxDiTを提案する。LuxDiTは、映像拡散変換器を微調整して、視覚入力に条件付けられたHDR環境マップを生成する、新しいデータ駆動型アプローチである。多様な照明条件を持つ大規模な合成データセットで訓練された我々のモデルは、間接的な視覚的手がかりから照明を推測することを学習し、実世界のシーンに効果的に汎化する。入力と予測環境マップ間の意味的整合を改善するために、HDRパノラマの収集データセットを用いた低ランク適応微調整戦略を導入する。本手法は、現実的な角度の高周波数ディテールを持つ正確な照明予測を生成し、定量的・定性的評価の両方において、既存の最先端技術を凌駕する。
これがあるとロケ撮影した素材でそのままライティングに参照できますよね。素晴らしい技術です。
コード公開は後ほど行われるそうです。詳細はプロジェクトページを是非チェックしてみてください!
コメント