ミュンヘン工科大学とHUAWEIの研究者らによる複数視点から撮影された画像を単一のパノラマ表現へ変換し、既存のVision-Language Model(VLM)をほぼそのまま利用して高度な3D空間理解を実現する研究「OneCanvas: 3D Scene Understanding via Panoramic Reprojection」が公開されています!
OneCanvas: 3D Scene Understanding via Panoramic Reprojection
ビジョン・言語モデル(VLM)における3Dシーン理解への既存のアプローチは、空間推論を実現するために、複雑でモデル固有のジオメトリエンコーダーに依存するか、あるいは膨大なトレーニングリソースを必要とするかのいずれかである。これに対し、OneCanvasは、すべてのビューからのパッチ特徴量を単一の等角円筒投影パノラマキャンバスに集約する。各パッチは、その深度とカメラの姿勢を用いて3D世界座標系に非投影変換され、その後、キャンバスの原点から見たその点の連続的な経度・緯度座標上に配置されます。この際、ピクセルグリッドへのラスタライズやビュー間の集約は行われません。
パッチのメトリック座標の3D位置埋め込みがその特徴量に追加され、ワールド座標を角度ベースのキャンバス座標に圧縮する際に失われた奥行きが復元されます。これにより、すべてのフレームのパッチが1つの空間座標系を共有できるようになり、バックボーンの融合や大規模なアーキテクチャの変更は不要となります。事前学習済みのVLMは、この表現を通常の画像であるかのように処理します。キャンバスは任意の関心のあるポーズを中心に配置できるため、この表現は特定の視点からの状況に応じた推論を直接サポートします。これは、ロボティクスやエンボディッドAIにおいて一般的な要件です。
この表現法のおかげで、空間的事前学習カリキュラムを導入することも可能になります。実際の画像から抽出したオブジェクトのパッチ特徴量を、空のキャンバス上の任意の3D空間位置に手続き的に配置することで、幅広い空間推論タスクにまたがる監督学習をその場で生成し、空間推論における近道を減らすよう回答分布を制御します。OneCanvasは、SQA3DおよびVSI-Benchにおいて最先端の精度を達成し、SPBenchの分布外データに対しても汎化性能を発揮します。しかも、最も優れた競合手法に比べて、トレーニングに必要な計算リソースを1桁少なく抑えています。
- 複数のカメラ画像から取得した特徴を、それぞれ3D空間上の位置へ復元
- 経度・緯度情報に変換し、1枚の全天球パノラマ上へ配置
- 各特徴へどの方向にあるか、どのくらい離れているかも付加
- 見た目だけでなく位置関係も事前学習させ学習コストを削減
これは中々実用的で良さそう!!今後の応用が広がりそうなアプローチですね。
現時点ではコードはComing Soonとなっています。
是非チェックしてみてください!
リンク
OneCanvas: 3D Scene Understanding via Panoramic Reprojection
https://baranowskibrt.github.io/onecanvas/










コメント