Yue Chen氏、Xingyu Chen氏、Anpei Chen氏、Gerard Pons-Moll氏、Yuliang Xiu氏らによる、CVPR 2025技術論文「Feat2GS: Probing Visual Foundation Models with Gaussian Splatting」の紹介。
[CVPR 2025] Feat2GS: Probing Visual Foundation Models with Gaussian Splatting
我々は、視覚的基礎モデルの「テクスチャとジオメトリの認識」を調査するための統一されたフレームワークであるFeat2GSを発表する。 新しいビュー合成は、3D評価の効果的な代理として機能します。
仕組み
何気なく撮影された写真は、特徴を抽出するために視覚的基礎モデル(VFM)に入力され、相対的なポーズを得るためにステレオ再構成器に入力される。 ピクセル単位の特徴は、測光損失で訓練された軽量読み出しレイヤーを使用して、3Dガウシアン(3DGS)に変換されます。 3DGSパラメータはジオメトリとテクスチャにグループ化され、VFMにおけるジオメトリ/テクスチャの認識を個別に分析することができる。 我々は、いくつかのVFMの3D認識を調査するために広範な実験を実施し、3D認識VFMにつながる成分を調査する。 これらの知見を基に、多様なデータセットにおいてSOTAを達成するいくつかのバリエーションを開発する。 これにより、Feat2GSはVFMのプロービングや、NVSのためのシンプルで効果的なベースラインとして有用である。
How much 3D do visual foundation models (VFMs) know?
— Yue Chen (@faneggchen) March 31, 2025
Previous work requires 3D data for probing → expensive to collect!#Feat2GS @CVPR 2025 – our idea is to read out 3D Gaussains from VFMs features, thus probe 3D with novel view synthesis.
🔗Page: https://t.co/ArpAbYKn33 pic.twitter.com/C4vYdppfJ9
「AIは3Dの形や質感を本当に理解してるのか?」をチェックする為の技術とのことで、どういう立ち位置なのかわからないのでAIに今後の可能性を聞いてみました。
今後の応用分野として、以下のような展開が期待されます:
① 3D生成AIの“実力チェックツール”に
→ いま流行りの「テキストから3D生成」や「1枚の画像から3D構築」などに使われるAIの性能を、客観的に比べる指標として使える。
② 軽量な3D再構築パイプラインに
→ 本来3D再構築にはLiDARや正確なカメラ情報が必要だったけど、Feat2GSのような仕組みを使えば簡単な画像群からの3D生成がもっと手軽に。
③ AIトレーニングのガイドに
→ どのモデルが「形をちゃんと理解してるか」「テクスチャを重視してるか」を見極めて、より優れた視覚AIを作る設計に役立つ。
ほぉ…結構重要な技術ですね。
Githubではコードも公開済みで、Hugging faceのでもページも用意されています。詳細はプロジェクトページをご確認ください!
コメント