リアルタイム AI が比類のない精度で白黒ビデオを瞬時にカラー化します
- 新しいディープ ラーニング アルゴリズムにより、編集者はシーン内の 1 つのフレームを色付けすることで、ビデオ全体をすばやく色付けできます。
- これは非常に正確で効率的で、以前の方法よりも最大 50 倍高速です。
ビデオはフレーム間に多くの冗長データで構成されており、白黒の各フレームを手動で色付けするには膨大な時間がかかります。このようなタイプの冗長性は、ビデオのエンコードと圧縮では広く調査されてきましたが、クリップのカラー化などの高度なビデオ処理ではあまり検討されていません。
連続したフレーム間の局所的な関係を処理してデータを伝播するアルゴリズム(双方向 CNN モデル、類似性ガイド フィルタリング、オプティカルフロー ベースのワーピングなど)が多数あります。見かけの動きまたは事前に設計されたピクセルレベルの特徴を使用して、フレームとピクセル間の類似性をモデル化します。
ただし、これらのアルゴリズムにはいくつかの制限があります。たとえば、フレーム間の高レベルの関係を表現できず、画像の構造を正確に反映できません。これらの制限を克服するために、NVIDIA の研究者は、編集者がシーン内の 1 つのフレームを色付けすることでクリップ全体を迅速に色付けできる、ディープ ラーニング手法に基づく新しいアルゴリズムを開発しました。
仕組みは?
連続するフレーム間の高レベルの類似性を明示的に学習するために、研究者は、あるフレームの特性(色など)を別のフレームに転送するための伝播コンポーネントで構成される時間伝播ネットワークを開発しました。これを行うには、畳み込みニューラル ネットワーク (CNN) によって駆動される線形変換行列を使用します。
CNN は、カラー化されたフレームからどの色を転送するかを決定し、残りの白黒フレームにその色を塗りつぶします。このテクニックは他のテクニックとどう違うのですか?そうですね、編集者が画像の一部に注釈を付けるインタラクティブなアプローチによって、より適切な色付けが可能になり、その結果、完成品が得られます。
時間領域での伝播を学習するために、研究者は 2 つのルールを適用しました。まず、フレーム間の伝播は反転可能である必要があります。 2 番目に、ターゲット要素はプロセス全体を通じて保持される必要があります。
彼らは、提案された手法では、既存の最先端の方法論に匹敵する適切な結果を達成するために、画像ベースのセグメンテーション手法を必要としないことを示しました。
参照:arXiv:1804.08758 | エヌビディア
このネットワークをトレーニングするために、研究者たちは NVIDIA Titan XP GPU を使用しました。ハイ ダイナミック レンジ、カラー、マスクの伝播のために、いくつかのデータセットからの数百のクリップでトレーニングされています。このネットワークは、約 600,000 フレームの 7,260 のビデオ シーケンスが詰め込まれた ACT データセット上に構成されています。
提案された手法の利点
<オル>
読む:Nvidia AI は 30fps ビデオを 240fps に変換できます
現在の技術は、クリップ内で時間の経過とともにデータを伝播する簡単な方法を提供します。今後数年間で、研究者たちは、時間的伝播のためにトレース、セマンティック、セグメンテーションなどの高レベルの視覚キューを組み込む方法を模索する予定です。
産業技術