TripoサービスでおなじみVAST社のAI Researchチームによる3D生成系AI技術2つ「TripoSG」と「TripoSF」が予告通りオープンソース化し公開されました!
TripoSG&TripoSF are now OPEN-SOURCED
TripoSG & TripoSF are now OPEN-SOURCED! 🥳
— Tripo (@tripoai) March 31, 2025
✅ TripoSG excels at image-to-mesh generation
✅ TripoSF redefines high-res, complex topology with SparseFlex.
🔍 Discover how we're setting a new SOTA for generative 3D models 🧵pic.twitter.com/0F5mIcgxMX
これらのモデルのオープンソース化により、3Dコンテンツ制作のハードルが下がり、クリエイターや研究者がより手軽に高品質な3Dモデルを生成・活用できるようになります。今後、ゲーム開発、映画制作、VR/ARコンテンツなど、多岐にわたる分野での応用が期待されます。
TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models
TripoSGは、1枚の画像から高品質な3Dモデルを生成するAIモデルです。例えば、椅子の写真を1枚用意すると、TripoSGはその椅子の形状を詳細に再現した3Dデータを作り出します。これにより、少ない情報からリアルな3Dオブジェクトを手軽に生成できるようになります。
高精度な3D形状生成:大規模なデータセットで学習されており、細部まで忠実な3Dモデルを作成
多様なスタイルに対応:さまざまな画像スタイルや内容に対して、柔軟に3Dモデルを生成
近年の拡散技術の進歩により、画像や映像の生成はかつてないほどの品質レベルにまで向上し、ジェネレーティブAIの展開や応用が大幅に加速している。 しかし、3D形状生成技術は、3Dデータスケールの制限、3Dデータ処理の複雑さ、3D領域における高度な技術の不十分な探求に制約され、これまでのところ遅れをとっている。 現在の3次元形状生成アプローチは、出力品質、汎化能力、入力条件との整合性の点で大きな課題を抱えている。 我々は、入力画像に正確に対応した忠実度の高い3Dメッシュを生成できる、新しい合理化された形状拡散パラダイムであるTripoSGを紹介する。 具体的に我々は、1)3次元形状生成のための大規模な整流変換器を提案する。 2)3次元VAEのための、SDF、正規ロス、エイコナルロスを組み合わせたハイブリッド教師あり学習戦略。 3) 200万個の高品質な3Dサンプルを生成するデータ処理パイプラインにより、3D生成モデルの学習におけるデータの質と量の重要なルールを強調。 包括的な実験を通じて、我々の新しいフレームワークの各コンポーネントの有効性を検証した。 これらの部品をシームレスに統合することで、TripoSGは3D形状生成において最先端の性能を達成することができた。 生成された3D形状は、高解像度機能によりディテールが強調され、入力画像に極めて忠実である。 さらにTripoSGは、多様な画像スタイルやコンテンツから3Dモデルを生成する際の汎用性が向上しており、強力な汎化能力を示している。 3D生成の分野における進歩と革新を促進するため、我々のモデルを公開する予定である。
TripoSF(SparseFlex: High-Resolution and Arbitrary-Topology 3D Shape Modeling)
TripoSFは、複雑な形状や開いた表面を持つ3Dモデルを高解像度で生成・再構築するためのAIモデルです。例えば、布のような複雑な形状や内部構造を持つオブジェクトでも、TripoSFはその細部まで再現可能です。
- 高解像度かつ複雑なトポロジーの3D形状モデリング:最大1024³の解像度で、複雑な形状や内部構造を持つ3Dモデルを生成できます。
- SparseFlex技術の採用:計算リソースを効率的に使用し、表面近傍の領域に焦点を当てることで、メモリ使用量を大幅に削減します。
- レンダリング損失による直接最適化:レンダリング結果との誤差を最小限に抑えることで、高品質な3Dモデルを生成します。
オープンサーフェスや複雑な内部を含む、任意のトポロジーを持つ高忠実度の3Dメッシュを作成することは、依然として重要な課題です。 既存の陰解法では、多くの場合、コストがかかり、ディテールを劣化させる水密変換が必要であり、他のアプローチでは高解像度に苦労している。 本論文では、レンダリング損失から直接10243までの解像度で微分可能なメッシュ再構築を可能にする、新しいスパース構造の等値曲面表現であるSparseFlexを紹介します。 SparseFlexは、Flexicubeの精度と疎なボクセル構造を組み合わせ、サーフェスに隣接する領域に計算を集中させ、開いたサーフェスを効率的に処理します。
重要な点は、レンダリング中に関連するボクセルのみをアクティブにし、メモリ消費を劇的に削減し、高解像度の学習を可能にする、フラクタムを考慮した断面ボクセルの学習戦略を導入することである。 これにより、初めて、レンダリング監視のみを使用してメッシュ内部を再構成することも可能になりました。 これをベースに、変分オートエンコーダ(VAE)と整流フロー変換器をトレーニングすることで、高品質な3D形状生成のための完全な形状モデリングパイプラインを実証する。 我々の実験では、従来の手法と比較して、面取り距離が約82%減少し、Fスコアが約88%増加するなど、最先端の再構成精度を示し、任意のトポロジーを持つ高解像度で詳細な3D形状の生成を実証する。 SparseFlexは、高解像度で微分可能なメッシュの再構成と、レンダリングロスを伴う生成を可能にすることで、3D形状表現とモデリングの最先端を大きく前進させます。
オープンソース化は嬉しいけどTripoのサービス側への影響ってどうなるんだろうね。
内部ではもっと高度な技術使い始めてたりするんだろうか。まぁなんにせよ色々活用できると嬉しいですね。
コメント