Google AI はビデオの色付けを通じてオブジェクト追跡を実現 – 自己監視型アプローチ

新しい畳み込みネットワークは、1 つの参照フレームから後続のフレームに色をコピーすることを学習します。
その間、さまざまなオブジェクトを追跡し、オクルージョンを追跡することができます。
人間のポーズも追跡できます。

ビデオ内のオブジェクトを追跡するように機械に教えることは、コンピュータービジョンにおいて最も困難なタスクの 1 つです。その主な理由は、追跡にはラベル付きの巨大なトレーニングデータセットが必要であるためです。もちろん、地球上で起こっていることすべてを記録してラベルを付けることは現実的ではありません。

そのため、大量のラベルのない生のクリップを利用するのではなく、人間の監督なしで追跡することを学習するシステムを構築する必要があります。なぜそれがそれほど重要なのでしょうか？とあなたは尋ねました。動画内のオブジェクトの追跡は、オブジェクトのインタラクション、アクティビティ認識、ビデオのスタイル化など、さまざまな用途に役立つ可能性があります。

現在、Google の研究者たちは、単一の参照フレームから色をコピーすることを学習する畳み込みネットワークを開発しました。モデルは、グレースケールフレームから直接色を推定するのではなく、ビデオの最初の参照フレームの色を使用するように制約されます。

正しい色をコピーするには、ネットワークは内部的に正しい領域を指す方法を学習する必要があります。この新しいモデルは、大規模なラベル付きデータセットでトレーニングすることなく、さまざまなオブジェクトを追跡し、オクルージョンを追跡できます。

再カラー化ビデオ

この人工知能システムを開発するために、研究者らは色の時間的コヒーレンシーを活用し、畳み込みネットワークにビデオの特定の部分を追跡するよう教えるための膨大なトレーニングデータを提供しました。例外的に、色が時間的に一貫していない場合があります。たとえば、照明を瞬時にオンにする場合などです。ただし、一般に、色は時間が経っても安定したままになります。

色付けされた単一フレーム参照からの予測色 |クレジット:Google

シーンには同じ色の異なるオブジェクトが含まれている可能性があるため、最初にビデオが脱色され、次にネットワークがカラー化ステップを実行します。これにより、マシンは特定の領域やオブジェクトを追跡する方法を学習できるようになります。

トレーニング

研究者らは、Kinetics データセット (日常の活動を描いた 50 万のビデオクリップを含む) を使用してモデルをトレーニングしました。最初のフレームを除くすべてのビデオフレームをグレースケールに変換し、後続のフレームで正しい色を推定するようにネットワークをトレーニングしました。

単一フレームから元の色をコピーするために、畳み込みネットワークは内部的に正しい色を指すことを学習しました。これにより、ネットワークはオブジェクト追跡に使用できる明示的なメカニズムに従うことが強制されました。

ネットワークは監視なしでオブジェクトを追跡します。クレジット:Google

モデルは固体のアイデンティティに基づいてトレーニングされていないという事実にもかかわらず、単一 (最初の) フレームのみを使用してビデオ内のオブジェクトまたは視覚部分を追跡することを学習します。ビデオ内の単一の点または輪郭を描かれたエンティティを追跡できます。

参照:arXiv:1806.09594 | Google AI ブログ

ビデオの色付けからオブジェクトを追跡するために、研究者は 1 つだけ変更を加えました。それは、クリップ全体に色を伝播するのではなく、ターゲット領域を表すラベルを伝播することです。

ポーズトラッキング

人間の骨格の動きを追跡 |クレジット:Google

このネットワークは人間のポーズを追跡することもできます。ネットワークはキーポイントでラベル付けされた最初のフレームを必要とし、残りの作業を実行します。ただし、後続のフレーム内のキーポイントを予測することは、思っているほど簡単ではありません。ビデオ内の人物が変形するときに、各キーポイントの位置をきめ細かく特定する必要があるからです。

研究者らは、人間の関節骨格を追跡する JHMDB データセット (人間のポーズと動作について完全に注釈が付けられたデータセット) 上でネットワークのポーズ追跡機能を実証しました。

ネットワークはオプティカルフローと同様のパフォーマンスを獲得しており、いくつかのモーション特徴を学習している可能性があることを示しています。人間のポーズとビデオセグメントを十分に追跡することを学習し、最新のオプティカルフローベースの技術をわずかに上回るパフォーマンスを発揮します。

読む:Google AI は 2 つの静止画像から短いビデオクリップを作成できる

モデルはまだ完璧ではありません。いくつかの実験では、ビデオの色付けやセグメントの追跡に失敗しました。したがって、研究者らはビデオの色付けプロセスをさらに改善することを計画しており、最終的には自己教師あり追跡の強化につながる可能性があります。

AI が人間の呼気からがんなどの病気を検出 AI が 30,000 ストランドのリアルタイム 3D ヘアレンダリングを推進

産業技術