Googleの新しいAIは、開始フレームと終了フレームだけで動画を作成できます
- 新しい3D畳み込みニューラルネットワークは、開始フレームと終了フレームの間のシーケンスを埋めることができます。
- 潜在表現ジェネレータを使用して、さまざまなビデオシーケンスを生成します。
人工ニューラルネットワークアーキテクチャと生成的敵対的ネットワークの最近の進歩により、画像/ビデオ合成手法の開発が促進されています。既存の研究のほとんどは、無条件のビデオ生成とビデオ予測の2つの操作に焦点を合わせています。どちらも、限られた数の過去のフレームを使用して、新しいもっともらしい動画を生成/予測する必要があります。
最近、Googleの研究チームは、利用可能なフレームが2つ(開始フレームと終了フレーム)しかない場合に、多様でもっともらしいビデオシーケンスを作成する問題に焦点を合わせました。中間と呼ばれるこのプロセスは、通常、ゲート付き回帰ユニットまたは長短期記憶のいずれかを使用して、リカレントニューラルネットワークをトレーニング/実行することによって実行されます。
ただし、この研究では、研究者は、この問題(中間)が3D畳み込みニューラルネットワークを介して対処できることを示しました。この方法の主な利点は単純さです。反復要素を使用しないため、勾配パスを短くすると、より深いネットワークとより安定したトレーニングが可能になります。
完全畳み込みモデル
畳み込みネットワークでは、開始フレームと終了フレーム(入力として提供)との時間的整合性を強制するのは非常に簡単です。モデルには3つの主要なコンポーネントがあります–
- 入力キーフレームを潜在空間にマッピングするための2D畳み込み画像エンコーダ。
- 時間分解能を徐々に上げながら入力フレームのデータを組み込むための3D畳み込み潜在表現ジェネレータ。
- 潜在表現をビデオフレームにデコードするためのビデオジェネレータ。
参照:arXiv:1905.10240 | NVIDIA
チームは、開始フレームと終了フレームのエンコードされた表現から直接ビデオを作成しようとしましたが、結果は目標に達していませんでした。そのため、彼らは潜在表現ジェネレーターを設計しました。これは、キーフレーム表現を確率的に融合し、最終的なビデオの時間分解能を着実に向上させます。
テスト
チームは、UCF101アクション認識、BAIR、KTHアクションデータベースなど、公開されているさまざまなデータセットでモデルをテストしました。
新しいモデルで作成されたフレームの例|研究者の礼儀
最終結果:データセット内のすべてのサンプルには合計16フレームが含まれ、そのうち14フレームは畳み込みニューラルネットワークによって生成されました。モデルは、キーフレームの1つのペアごとに100回以上実行され、プロセス全体がモデルバリアントごとに10回繰り返されました。
読む:新しいAIは、白黒の動画をリアルタイムでカラーに変換します
すべての場合において、キーフレームが互いに約1/2秒離れていることを考えると、モデルはリアルなビデオシーケンスを作成することができました。さらに、研究者は、生成プロセスを駆動する入力ノイズベクトルを変更するだけで、さまざまなシーケンスを作成できることを示しました。この新しい方法は、ビデオ制作に関する将来の研究のための貴重な代替の視点を提供することができます。
産業技術