アリババ・グループ、香港大学、ウォータールー大学、ベクター・インスティテュートの研究者らによる、AI活用の世界生成&リアルタイム動画生成技術「The Matrix」が発表されました!
The Matrix
リアルな世界シミュレーションのための、初のリアルタイム、フレームレベルの移動制御!
AIが現実と幻想の境界線を曖昧にし、完全に没入したインタラクティブな世界を作り上げるという『マトリックス』(1999年)のビジョンの実現に、私たちはどこまで近づいているのだろうか? 現実そのものに匹敵するビジュアルでリアルタイムに創造される、無限のデジタル宇宙を想像してみてほしい。 このプロジェクトは、そのビジョンに向けた先駆的な一歩であり、人類独自の “マトリックス “を垣間見る最初の機会である。私たちのシステムは、以下を実現することで、世界シミュレーションの新境地を切り開きます:
映画で描かれた応答性に匹敵する、ユーザーとのインタラクションにおけるフレームレベルの正確さ。
AAAレベルのビジュアルにより、現実とほとんど見分けがつかない没入感のあるシーンを実現。
現在のビデオモデルの限界を超える、無限の探索を可能にする無限の生成能力。無限の長さの超リアルなビデオをリアルタイムでフレームレベルで制御しながら生成するための基礎となる世界モデル。
- 無限の長さのビデオ生成
- 720pの高品質レンダリング
- 16 FPSでのリアルタイム・フレームレベル制御
- 実世界の映像制御への一般化
主なイノベーション シフトウィンドウデノイズプロセスモデルと呼ばれる全く新しい技法により、拡散モデルと一貫性モデルの自動回帰生成をリアルタイムで実現。
The Matrixは、一人称視点と三人称視点でリアルタイムの応答性の高いコントロールを提供し、動的な環境をシームレスに探索できます。Forza Horizon 5やCyberpunk 2077などの AAA ゲームのデータと現実世界の映像に基づいてトレーニングされているため、ユーザーは途切れることなく連続したビデオで、砂漠、都市、森林などのさまざまな地形を移動できます。各キーボード コマンドはフレーム レベルの精度で応答し、AAA ゲームと同様の 4 フレーム応答を実現します。
興味深いことに、膨大なインターネット ビデオ コレクションと AAA ゲームの映像を組み合わせて事前トレーニングされた The Matrix は、優れたドメイン一般化を示しています。たとえば、BMW X3 でオフィス エリアを運転するなどのシナリオが可能になります。
14分間の走行映像
Here’s an example showcasing The Matrix generating an ultra-long video with precise real-time control lasting over 14 minutes (>13440 frames). For more examples, visit our project page: https://t.co/WZnv6Y6kl8. pic.twitter.com/NOHMb7f3sj
— Hongyang Zhang (@hongyangzh) November 20, 2024
ここ最近のAI技術の発展から予想されていた方向性ではあるものの、こんなに早く登場するとは・・・。生成の精度はまだ高くなさそうですが、なによりもリアルタイムで実現出来るという所が凄いです。
数年後どうなるんだろうこれ・・・今後この手の分野は色々と変化が起きそうですね。
「The Matrix」は現在論文が公開済みで、コードはComingSoonとなっております。
詳細などは公式のプロジェクトページをご確認ください!
リンク
Introducing The Matrix — a foundation world model for generating infinite-length, hyper-realistic videos with real-time, frame-level control:
— Hongyang Zhang (@hongyangzh) November 20, 2024
– Infinite-length video generation
– 720p high-quality rendering
– Real-time, frame-level control at 16 FPS
– Generalization to… pic.twitter.com/84EvrDOmZT
コメント