サムスンAIは1枚の写真から話す映像を作成できます

新しいAIモデルは、単一の画像から話すアバターを作成できます。
開発者は、このモデルをレオナルドダヴィンチやモナリザなどの人気のある絵画に適用しました。
結果にはいくつかの視覚的な不具合がありますが、以前の手法よりもはるかに印象的です。

ディープフェイク（人間の画像合成のための人工知能ベースの技術）を生成するためのソフトウェアは、現実的な偽造を構築するために大量の画像セットを必要とします。ニューラルネットワークの最近の進歩は、広範囲のデータセットでネットワークをトレーニングすることにより、非常にリアルな人間の画像を取得できることを示しています。

ただし、モスクワのサムスン研究センターの開発者は、単一の画像から話すアバターを作成できる新しい人工知能（AI）モデルを開発しました。 1つの画像からビデオクリップを作成することは可能ですが、複数の画像をトレーニングすることで、保存性とリアリズムをより正確に特定できます。

このモデルによって生成されたトーキングヘッズは、ワーピングベースのシステムの能力を超えるものを含む、さまざまなポーズを処理できます。視覚的な不具合が見られる場合がありますが、その結果は以前の手法と比較してはるかに印象的です。このモデルは、最終的に実際のビデオと区別するのが難しいマルチメディアの作成につながります。

結果

チームは、モナリザ、レオナルドダヴィンチ、アルバートアインシュタインなどの多くの人気人物の画像にこのモデルを適用しました。 AIは、単一の画像から話すビデオを作成し、古典的な肖像画に命を吹き込むことができました。ビデオを作成するのに必要な写真は1枚だけです。ただし、32枚の写真でトレーニングされたモデルは、より優れたパーソナライズスコアと完璧なリアリズムを実現できます。

このタイプのAIは、マルチプレーヤーゲーム、ビデオ会議、特殊効果業界など、テレプレゼンスでいくつかの実用的なアプリケーションを使用できます。

読む：IBMはビデオのシーンを検出するAIを開発しています

マイナス面として、そのような技術の急速な発展は、誤った情報、なりすまし、詐欺、選挙の改ざんのリスクを高める可能性があります。

Bosque：ループのないMicrosoftの新しいプログラミング言語 MEMS（微小電気機械システム）とは何ですか？タイプとアプリケーション

産業技術

サムスンAIは1枚の写真から話す映像を作成できます

関連する課題

結果