AI がディープラーニングモーション転送でアマチュアダンサーをプロに変える

画期的なディープラーニングシステムにより、あらゆるビデオ映像でトップダンススターの振り付けを再現できます。
スタジオ品質の結果を生成するには、通常のビデオ入力のみが必要です。高価な 3D リグやモーションキャプチャスーツは必要ありません。

人工知能は家庭用電化製品から宇宙探査に至るまで産業を再構築しており、この最新のイノベーションは芸術におけるその変革力を示しています。カリフォルニア大学の研究者らは、ソースダンサーの動きをターゲットパフォーマーにマッピングするモーション転送アルゴリズムを開発しました。これにより、カジュアルな参加者でも熟練のバレリーナやポップアイコンのように見えるようになります。

核となる考え方は単純明快で、「私と同じように行動する」です。このシステムは数分以内に、プロのダンスモーションを対象の被写体にオーバーレイすることができ、パフォーマー、教育者、コンテンツクリエイターに新たなクリエイティブの可能性をもたらします。

テクノロジーの仕組み

このプロセスは、ソースビデオとターゲットビデオの両方からキーポイントベースのポーズスケルトンを抽出することから始まります。これらのポーズスティックフィギュアは、軽量で外観に依存しない体の位置の表現を提供し、モデルが動きだけに集中できるようにします。

AI がディープラーニングモーション転送でアマチュアダンサーをプロに変える

各フレームのポーズは教師付き姿勢推定アルゴリズムによって生成され、正確な棒人間が生成されます。次に、モーション転送モデルはこれらのスケルトンを取り込み、ターゲットの外観を維持しながらソースのポーズを模倣するターゲットイメージを生成します。最終出力は、ポーズ転送モジュールと生成リファインメントネットワークを融合することによってリファインされ、よりシャープでリアルなフレームが提供されます。

ワークフローは 3 つの段階に分かれています。

<オル>

ポーズ検出 – ソース映像とターゲット映像の両方から 2D キーポイントを抽出します。

グローバルなポーズの正規化 – 被写体全体でスケルトンを調整します。

ポーズマッピング – ソースポーズと一致するターゲットフレームを合成します。

時間的な滑らかさを確保するために、アルゴリズムは現在のフレームのポーズを以前に生成されたフレームとブレンドし、ジッターを大幅に削減します。低フレームレート入力の場合は、メディアンフィルターが適用されます。高フレームレートのビデオ (最大 120fps) の場合、キーポイントのガウス平滑化が使用されます。

高忠実度の結果は、被験者ごとに 20 分以上の高フレームレートのアマチュアダンス映像でトレーニングされた条件付き敵対的生成ネットワーク (cGAN) を統合することによって実現されます。 NVIDIA によって開発された pix2pixHD アーキテクチャは、画像変換パイプラインのバックボーンとして機能します。

参照:arXiv:1808.07371

トレーニングと推論は、CUDA アクセラレーションを備えた PyTorch を使用して、NVIDIA GeForce GTX1080Ti および TITANXp GPU で実行されました。

今後の方向性

このアルゴリズムは現在、特殊なハードウェアを必要とせずに、さまざまな主題にわたるモーション転送をサポートしています。ただし、特にソースのモーション速度がトレーニング中に見られる範囲を超える場合、時折ジッターが残ります。現在進行中の研究は、姿勢推定方法の最適化と、これらのアーティファクトを軽減するためのモーションレパートリーの拡大に焦点を当てています。

関連するブレークスルーについては、NVIDIA AI が 30fps ビデオを 240fps に変換できるを参照してください。

音響印刷:音波によりあらゆる液体から正確な液滴を作成新しい 3D プリントのバイオインク角膜はドナー不足を解消できる可能性 – 10 分の製造を達成

産業技術

AI がディープラーニング モーション転送でアマチュア ダンサーをプロに変える

テクノロジーの仕組み

今後の方向性

AI がディープラーニングモーション転送でアマチュアダンサーをプロに変える