Tsinghua University、Tencent ARC Lab、Victoria University of Wellingtonの共同研究チームによる「Pixal3D」が公開!入力画像に対して“ピクセル単位で忠実”な3Dモデル生成を目指したImage-to-3D技術!
Pixal3D | Pixel-Aligned 3D Generation from Images
Pixal3Dは、単一の画像から高精細な3Dアセットを生成します。アテンションを用いて画像の特徴を大まかに取り込む従来の手法とは異なり、Pixal3Dはバックプロジェクションを通じてピクセルの特徴を明示的に3D空間へ変換し、ピクセルと3D空間の直接的な対応関係を確立します。これにより、詳細な形状とPBRテクスチャを備えた、再構築レベルに近い精細さを実現します。

- 入力画像の視点に合わせた「Pixel-Aligned」方式で3D生成
- ピクセル情報を3D空間へ逆投影するBack-Projection技術
- 2D画像と3D形状の対応関係を明示的に構築
- 従来手法より高い入力画像への忠実度を実現
- 再構築系に近い高精細な形状生成
- 高品質なPBRテクスチャ生成に対応
- 見えていない部分を自然に補完可能
- マルチビュー入力による3D生成に対応
- オブジェクト分離されたシーン生成が可能
- Trellis.2ベースの改良版実装を公開済み
3D生成モデルにおける最近の進歩により、画像から3Dへの合成品質は急速に向上し、より高解像度の形状やよりリアルな外観が可能になりました。しかし、生成された3Dアセットが入力画像に対してピクセルレベルでどれほど忠実であるかを測る「フィデリティ」は、依然として主要なボトルネックとなっています。我々は、この問題が暗黙的な2D-3D対応関係に起因すると考える。ほとんどの3Dネイティブ生成モデルは、標準空間で形状を合成し、アテンションを介して画像の手がかりを注入するため、ピクセルと3Dの関連付けが曖昧なままになっている。この問題に対処するため、我々は3D再構成の手法に着想を得て、画像から高忠実度の3Dアセットを生成するためのピクセルアラインメント型3D生成パラダイム「Pixal3D」を提案する。Pixal3Dは、標準的なポーズで生成するのではなく、入力ビューと整合したピクセルアラインメント方式で3Dを直接生成する。これを実現するため、我々はピクセルバックプロジェクション条件付けスキームを導入し、マルチスケールの画像特徴を明示的に3D特徴ボリュームへと昇格させることで、曖昧さのない直接的なピクセルと3Dの対応関係を確立する。我々は、Pixal3Dがスケーラブルで高品質な3Dアセットを生成できるだけでなく、忠実度を大幅に向上させ、再構成と同等の忠実度レベルに近づけることを示す。さらに、Pixal3Dは、各ビューにわたるバックプロジェクションされた特徴ボリュームを集約することで、マルチビュー生成へと自然に拡張可能である。最後に、ピクセルアラインメント生成がシーン合成に有益であることを示し、画像から高忠実度のオブジェクト分離済み3Dシーンを生成するモジュール式パイプラインを提示する。
従来のなんとなく似ている結果から一歩進んだ感じですね!Image-to-3Dは次の段階になる?
現在「Pixal3D」は論文、コード、デモがすべて公開されており、フィードバックを受け付けている状態です!
是非チェックしてみてください!
リンク
🚀🚀 Introducing Pixal3D (SIGGRAPH’26) — a new pixel-aligned image-to-3D generation paradigm for high-fidelity 3D asset creation.
— Wang Zhao (@WangZhao_0849) May 12, 2026
Today’s Image-to-3D has become pretty good at producing plausible 3D assets. But plausibility is not enough. Fidelity is a hidden bottleneck.
❓A… pic.twitter.com/7F9emjmNzO












コメント