サムスンAIは1枚の写真から話す映像を作成できます
- 新しいAIモデルは、単一の画像から話すアバターを作成できます。
- 開発者は、このモデルをレオナルドダヴィンチやモナリザなどの人気のある絵画に適用しました。
- 結果にはいくつかの視覚的な不具合がありますが、以前の手法よりもはるかに印象的です。
ディープフェイク(人間の画像合成のための人工知能ベースの技術)を生成するためのソフトウェアは、現実的な偽造を構築するために大量の画像セットを必要とします。ニューラルネットワークの最近の進歩は、広範囲のデータセットでネットワークをトレーニングすることにより、非常にリアルな人間の画像を取得できることを示しています。
ただし、モスクワのサムスン研究センターの開発者は、単一の画像から話すアバターを作成できる新しい人工知能(AI)モデルを開発しました。 1つの画像からビデオクリップを作成することは可能ですが、複数の画像をトレーニングすることで、保存性とリアリズムをより正確に特定できます。
このモデルによって生成されたトーキングヘッズは、ワーピングベースのシステムの能力を超えるものを含む、さまざまなポーズを処理できます。視覚的な不具合が見られる場合がありますが、その結果は以前の手法と比較してはるかに印象的です。このモデルは、最終的に実際のビデオと区別するのが難しいマルチメディアの作成につながります。
関連する課題
現実的な話すアバターシーケンスを作成することは、主に2つの理由で困難です–
- 人間の頭は、運動学的、幾何学的、および測光的に非常に複雑です。髪の毛、目、虫歯、その他多くの要素を正確にモデル化する必要があります。
- 人間の頭をモデル化する外観の小さなエラーに対する視覚系の鋭さ。
これらの問題に対処するために、新しいAIモデルは学習プロセス中に3つのニューラルネットワークを作成します。顔のランドマークフレームをベクトルで接続する組み込みネットワークを構築します。次に、生成されたクリップにランドマークをマッピングするジェネレータネットワークを構築します。最後のステップでは、ディスクリミネーターネットワークがフレームのポーズとリアリズムを評価します。
参照:arXiv:1905.08233 | YouTube
顔のランドマークと動きをよりよく理解するために、研究者は人間が話している何千ものYouTubeビデオでネットワークを訓練しました。次に、結果(トーキングヘッズ)を定量的測定によって代替ニューラルネットワークと比較しました。
結果
チームは、モナリザ、レオナルドダヴィンチ、アルバートアインシュタインなどの多くの人気人物の画像にこのモデルを適用しました。 AIは、単一の画像から話すビデオを作成し、古典的な肖像画に命を吹き込むことができました。ビデオを作成するのに必要な写真は1枚だけです。ただし、32枚の写真でトレーニングされたモデルは、より優れたパーソナライズスコアと完璧なリアリズムを実現できます。
このタイプのAIは、マルチプレーヤーゲーム、ビデオ会議、特殊効果業界など、テレプレゼンスでいくつかの実用的なアプリケーションを使用できます。
読む:IBMはビデオのシーンを検出するAIを開発しています
マイナス面として、そのような技術の急速な発展は、誤った情報、なりすまし、詐欺、選挙の改ざんのリスクを高める可能性があります。
産業技術
- クラウドコンピューティングの専門家は自宅で仕事をすることができますか
- IIoTがビジネスモデルの混乱をどのように促進できるか
- 人工知能は神経活動から音声を生成できます
- Googleの新しいAIは、開始フレームと終了フレームだけで動画を作成できます
- 危機の時代にサプライチェーンが軍事計画者から何を学ぶことができるか
- 販売注文の自動化がパンデミック時にどのように安定性を生み出すことができるか
- 病院がCOVID-19から学ぶことができる5つのサプライチェーンの教訓
- 米国のサプライチェーンをサイバー攻撃から救うことはできますか?
- ロジスティクスがモノのインターネットからどのように利益を得ることができるか
- メーカーが5Gの実装からどのように利益を得ることができるか
- AIは製造業の仕事を生み出すことができますか?