AI がディープラーニング モーション転送でアマチュア ダンサーをプロに変える
- 画期的なディープラーニング システムにより、あらゆるビデオ映像でトップ ダンス スターの振り付けを再現できます。
- スタジオ品質の結果を生成するには、通常のビデオ入力のみが必要です。高価な 3D リグやモーション キャプチャ スーツは必要ありません。
人工知能は家庭用電化製品から宇宙探査に至るまで産業を再構築しており、この最新のイノベーションは芸術におけるその変革力を示しています。カリフォルニア大学の研究者らは、ソース ダンサーの動きをターゲット パフォーマーにマッピングするモーション転送アルゴリズムを開発しました。これにより、カジュアルな参加者でも熟練のバレリーナやポップ アイコンのように見えるようになります。
核となる考え方は単純明快で、「私と同じように行動する」です。このシステムは数分以内に、プロのダンス モーションを対象の被写体にオーバーレイすることができ、パフォーマー、教育者、コンテンツ クリエイターに新たなクリエイティブの可能性をもたらします。
テクノロジーの仕組み
このプロセスは、ソース ビデオとターゲット ビデオの両方からキーポイント ベースのポーズ スケルトンを抽出することから始まります。これらのポーズ スティック フィギュアは、軽量で外観に依存しない体の位置の表現を提供し、モデルが動きだけに集中できるようにします。

各フレームのポーズは教師付き姿勢推定アルゴリズムによって生成され、正確な棒人間が生成されます。次に、モーション転送モデルはこれらのスケルトンを取り込み、ターゲットの外観を維持しながらソースのポーズを模倣するターゲット イメージを生成します。最終出力は、ポーズ転送モジュールと生成リファインメント ネットワークを融合することによってリファインされ、よりシャープでリアルなフレームが提供されます。
ワークフローは 3 つの段階に分かれています。
<オル>時間的な滑らかさを確保するために、アルゴリズムは現在のフレームのポーズを以前に生成されたフレームとブレンドし、ジッターを大幅に削減します。低フレームレート入力の場合は、メディアン フィルターが適用されます。高フレームレートのビデオ (最大 120fps) の場合、キーポイントのガウス平滑化が使用されます。
高忠実度の結果は、被験者ごとに 20 分以上の高フレームレートのアマチュア ダンス映像でトレーニングされた条件付き敵対的生成ネットワーク (cGAN) を統合することによって実現されます。 NVIDIA によって開発された pix2pixHD アーキテクチャは、画像変換パイプラインのバックボーンとして機能します。
トレーニングと推論は、CUDA アクセラレーションを備えた PyTorch を使用して、NVIDIA GeForce GTX1080Ti および TITANXp GPU で実行されました。
今後の方向性
このアルゴリズムは現在、特殊なハードウェアを必要とせずに、さまざまな主題にわたるモーション転送をサポートしています。ただし、特にソースのモーション速度がトレーニング中に見られる範囲を超える場合、時折ジッターが残ります。現在進行中の研究は、姿勢推定方法の最適化と、これらのアーティファクトを軽減するためのモーション レパートリーの拡大に焦点を当てています。
関連するブレークスルーについては、NVIDIA AI が 30fps ビデオを 240fps に変換できる を参照してください。
産業技術
- 業界におけるペーパーレスのメリットは何ですか?
- CMMS が資産回転率を高める方法
- IT / OTコンバージェンス:産業用IoTでは、2つの世界が衝突します
- 放電加工(EDM)プロセスとは何ですか?どのように機能しますか?
- EAMとCMMS:違いとその機能
- 自家製テルミン:電子自家製テルミンの説明
- ウェビナー:インテリジェントエッジ向けのスマートLinuxソリューション
- ヘルスケアの古くからのサプライチェーン問題への新しいアプローチ
- 24人のサプライチェーン専門家がリスク管理のベストプラクティスとサプライチェーンリスクを軽減するための最も効果的な方法を共有
- CNC フライス加工について知っておくべき基本的な知識
- ポリウレタンシール:極端な温度用途における優れた性能