OpenAIから新たなテキストto動画のAIモデル『Sora』が発表されました。
OpenAI Sora
テキストから動画を生成
Soraは、テキストの指示からリアルで想像力豊かなシーンを作り出すAIモデルです。
Soraは拡散モデルであり、静止ノイズのような動画から生成し、何段階にもわたってノイズを除去しながら徐々に変換していく。Soraは、動画全体を一度に生成することも、生成された動画を延長して長くすることもできる。一度に多くのフレームの先読みをモデルに与えることで、被写体が一時的に視界から外れても、被写体が変わらないようにするという難しい問題を解決しています。
GPTモデルと同様に、Soraはトランスフォーマーアーキテクチャを使用しており、優れたスケーリング性能を発揮します。
Soraは、動画や画像をパッチと呼ばれる小さなデータ単位の集まりとして表現し、各パッチはGPTにおけるトークンのようなものです。データの表現方法を統一することで、異なる時間、解像度、アスペクト比にまたがる、従来よりも幅広い視覚データに対して拡散変換器を学習させることができます。
Soraは、DALL-EとGPTモデルの過去の研究をベースにしています。また、DALL-E 3で採用されたリキャプション技術(視覚学習データに対して非常に説明的なキャプションを生成する技術)を採用しています。その結果、このモデルは、生成されたビデオ内のユーザのテキスト指示に、より忠実に従うことができます。
また、テキスト指示のみから動画を生成するだけでなく、既存の静止画像から動画を生成することも可能で、画像の内容を細部まで正確にアニメーションさせることができます。また、既存の動画を拡張したり、欠けているフレームを埋めることもできます。詳しくは、テクニカルレポートをご覧ください。
Soraは、現実世界を理解しシミュレートできるモデルの基礎となるもので、AGIを実現するための重要なマイルストーンになると考えています。
Introducing Sora, our text-to-video model.
— OpenAI (@OpenAI) February 15, 2024
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
動画生成もクオリティが一定のラインを超えた気がします。進化の速度が早いですなぁ。
現状は発表のみというところでしょうか?今後どのような展開になるのか楽しみですね。
それにしてもAI系技術がどんどん実用レベルに…。2D画像、動画と続いて、次は3Dかな…
コメント