Google AI はビデオの色付けを通じてオブジェクト追跡を実現 – 自己監視型アプローチ
- 新しい畳み込みネットワークは、1 つの参照フレームから後続のフレームに色をコピーすることを学習します。
- その間、さまざまなオブジェクトを追跡し、オクルージョンを追跡することができます。
- 人間のポーズも追跡できます。
ビデオ内のオブジェクトを追跡するように機械に教えることは、コンピューター ビジョンにおいて最も困難なタスクの 1 つです。その主な理由は、追跡にはラベル付きの巨大なトレーニング データセットが必要であるためです。もちろん、地球上で起こっていることすべてを記録してラベルを付けることは現実的ではありません。
そのため、大量のラベルのない生のクリップを利用するのではなく、人間の監督なしで追跡することを学習するシステムを構築する必要があります。 なぜそれがそれほど重要なのでしょうか?とあなたは尋ねました。動画内のオブジェクトの追跡は、オブジェクトのインタラクション、アクティビティ認識、ビデオのスタイル化など、さまざまな用途に役立つ可能性があります。
現在、Google の研究者たちは、単一の参照フレームから色をコピーすることを学習する畳み込みネットワークを開発しました。モデルは、グレースケール フレームから直接色を推定するのではなく、ビデオの最初の参照フレームの色を使用するように制約されます。
正しい色をコピーするには、ネットワークは内部的に正しい領域を指す方法を学習する必要があります。この新しいモデルは、大規模なラベル付きデータセットでトレーニングすることなく、さまざまなオブジェクトを追跡し、オクルージョンを追跡できます。
再カラー化ビデオ
この人工知能システムを開発するために、研究者らは色の時間的コヒーレンシーを活用し、畳み込みネットワークにビデオの特定の部分を追跡するよう教えるための膨大なトレーニング データを提供しました。例外的に、色が時間的に一貫していない場合があります。たとえば、照明を瞬時にオンにする場合などです。ただし、一般に、色は時間が経っても安定したままになります。
色付けされた単一フレーム参照からの予測色 |クレジット:Google
シーンには同じ色の異なるオブジェクトが含まれている可能性があるため、最初にビデオが脱色され、次にネットワークがカラー化ステップを実行します。これにより、マシンは特定の領域やオブジェクトを追跡する方法を学習できるようになります。
トレーニング
研究者らは、Kinetics データセット (日常の活動を描いた 50 万のビデオ クリップを含む) を使用してモデルをトレーニングしました。最初のフレームを除くすべてのビデオ フレームをグレースケールに変換し、後続のフレームで正しい色を推定するようにネットワークをトレーニングしました。
単一フレームから元の色をコピーするために、畳み込みネットワークは内部的に正しい色を指すことを学習しました。これにより、ネットワークはオブジェクト追跡に使用できる明示的なメカニズムに従うことが強制されました。
ネットワークは監視なしでオブジェクトを追跡します。クレジット:Google
モデルは固体のアイデンティティに基づいてトレーニングされていないという事実にもかかわらず、単一 (最初の) フレームのみを使用してビデオ内のオブジェクトまたは視覚部分を追跡することを学習します。ビデオ内の単一の点または輪郭を描かれたエンティティを追跡できます。
参照:arXiv:1806.09594 | Google AI ブログ
ビデオの色付けからオブジェクトを追跡するために、研究者は 1 つだけ変更を加えました。それは、クリップ全体に色を伝播するのではなく、ターゲット領域を表すラベルを伝播することです。
ポーズトラッキング
人間の骨格の動きを追跡 |クレジット:Google
このネットワークは人間のポーズを追跡することもできます。ネットワークはキーポイントでラベル付けされた最初のフレームを必要とし、残りの作業を実行します。ただし、後続のフレーム内のキーポイントを予測することは、思っているほど簡単ではありません。ビデオ内の人物が変形するときに、各キーポイントの位置をきめ細かく特定する必要があるからです。
研究者らは、人間の関節骨格を追跡する JHMDB データセット (人間のポーズと動作について完全に注釈が付けられたデータセット) 上でネットワークのポーズ追跡機能を実証しました。
ネットワークはオプティカル フローと同様のパフォーマンスを獲得しており、いくつかのモーション特徴を学習している可能性があることを示しています。人間のポーズとビデオ セグメントを十分に追跡することを学習し、最新のオプティカル フロー ベースの技術をわずかに上回るパフォーマンスを発揮します。
読む:Google AI は 2 つの静止画像から短いビデオ クリップを作成できる
モデルはまだ完璧ではありません。いくつかの実験では、ビデオの色付けやセグメントの追跡に失敗しました。したがって、研究者らはビデオの色付けプロセスをさらに改善することを計画しており、最終的には自己教師あり追跡の強化につながる可能性があります。
産業技術
- 工具寿命を延ばし、生産性を向上させる5つの方法
- 不適切な発電機同期の3つの結果
- 企業はデジタル経済において外部の労働者に目を向けています
- シングル ボード コンピューター - ソーシャル マーケットをすばやく捉える方法
- 製造施設のオフィスをより整理する方法
- 人間味のあるサプライチェーンの変革
- アディティブ マニュファクチャリングで作成すべき 4 つのアプリケーション
- Konstantin Brunnbauer のご紹介 – SCB 貢献者および業界専門家
- なぜ小売業者とサプライヤーは需要予測で彼らの行動をまとめることができないのですか?
- 製造品の品質を向上させる方法
- ユーティリティ資産管理のベストプラクティス:資産の生涯価値を最大化する