Google Researchによるテキストプロンプトから動画を生成する技術「Imagen Video」が登場しました!
Imagen Video
我々は、ビデオ拡散モデルのカスケードに基づいて、テキスト条件付きビデオ生成システムであるイマージェン ビデオを発表する。
テキストプロンプトが与えられると、Imagen Videoはベースビデオ生成モデルと、インターリーブされた空間および時間ビデオ超解像モデルのシーケンスを用いて高解像度ビデオを生成する。
我々は、特定の解像度における完全畳み込み時間的・空間的超解像モデルの選択、拡散モデルのvパラメータ化の選択などの設計上の決定を含む、高解像度テキストからビデオへのモデルとしてシステムをスケールアップする方法について説明する。
さらに、拡散に基づく画像生成に関する先行研究の知見を確認し、ビデオ生成の設定に移行する。
最後に、高速かつ高品質なサンプリングのために、分類器不要のガイダンスとともに、ビデオモデルに漸進的蒸留を適用します。
Imagen Videoは、忠実度の高いビデオを生成できるだけでなく、高度な制御性と世界知識を持つことがわかりました。
また、3Dオブジェクトを理解し、様々な芸術的スタイルで多様なビデオやテキストアニメーションを生成する能力も備えています。
サンプルはimagen.research.google/videoをご覧ください。
ちょっとした物の合成程度ならもはや手を動かさずに素材を作ることができそうです。
現在はサンプル動画と、論文のPDFを確認することができます。すごい時代になってきた…。
リンク
ちなみに、テキストから画像を生成する「Imagen」という技術もすでに公開済みです。
コメント