Meta AIによる、テキストプロンプトから動画を生成する技術「Make-A-Video」が発表されました。
Make-A-Video
We’re pleased to introduce Make-A-Video, our latest in #GenerativeAI research! With just a few words, this state-of-the-art AI system generates high-quality videos from text prompts.
— Meta AI (@MetaAI) September 29, 2022
Have an idea you want to see? Reply w/ your prompt using #MetaAI and we’ll share more results. pic.twitter.com/q8zjiwLBjb
Make-A-Videoの研究は、テキストからビデオへの生成を可能にするために構築されたテキストから画像への生成技術における最近の進歩をベースにしています。このシステムは、説明文付きの画像を用いて、世界がどのように見えるか、また、どのように説明されることが多いかを学習します。また、ラベルのない動画を使って、世界の動きを学習します。このデータをもとに、Make-A-Videoは、わずかな文字や行のテキストで、気まぐれで世界にひとつだけの動画を生成し、あなたの想像力を膨らませます。
公式ページより
私たちは、Text-to-Image(T2I)生成における最近の驚異的な進歩を、Text-to-Video(T2V)に直接変換するアプローチであるMake-A-Videoを提案します。我々の直感は単純で、テキストと画像のペアデータから、世界がどのように見えるか、どのように記述されるかを学び
論文より
このように、Make-A-Videoは、テキストと画像のペアから世界の様子とその説明を学習し、教師なしビデオ映像から世界の動きを学習する。Make-A-Videoには、
(1)T2Vモデルの学習を高速化できる(視覚表現とマルチモーダル表現を一から学習する必要がない)
(2)教師なしビデオ映像から世界の動きを学習できテキストとビデオのペアデータを必要としない、
(3)生成されたビデオは今日の画像生成モデルの持つ広大さ(美的感覚の多様性、幻想的な描写など)を継承している
という三つの利点があります。
我々は、T2Iモデルに新規かつ効果的な空間-時間モジュールを構築するための、シンプルかつ効果的な方法を設計する。まず、完全な時間的U-Netと注意テンソルを分解し、空間と時間で近似する。次に、T2V以外の様々なアプリケーションを可能にするビデオデコーダ、補間モデル、2つの超解像モデルにより、高解像度かつフレームレートのビデオを生成する空間時間パイプラインを設計する。空間的・時間的解像度、テキストへの忠実性、品質、すべての側面において、Make-A-Videoは質的にも量的にも、テキストからビデオへの生成における新しい最先端を打ち立てたと言える。
これまた凄いのが出てきましたね。「Make-A-Video」は現在論文のみ公開済みです。
今後の動向が気になる方は、是非サイトをチェックしてみてください。
コメント