Facebook AI がジャンルや楽器を超えて音楽を変革

Facebook AI 研究チームは、ユニバーサル音楽翻訳ネットワークを構築しています。
聞いたオーディオを複製し、さまざまなスタイル、ジャンル、楽器で再生します。
手拍子や口笛など、聞いたことのない音楽ソースを処理し、高品質のオーディオを生成できます。

音楽に関して言えば、人間は常に創造性を発揮して歌を複製し、手拍子したり、口笛を吹いたり、さまざまな楽器で演奏したりすることで、それをさまざまな形に変えてきました。

音楽は、コンピューティングマシンとアルゴリズムによってデジタル化され、処理される最初の分野の 1 つですが、今日の人工知能は、オーディオを模倣するという点では人間よりもはるかに劣っています。

現在、Facebook AI 研究チームは、音楽をある形式から別の形式に変換できるユニバーサル音楽翻訳ネットワークを開発しました。聞いた音楽を複製し、さまざまなスタイル、ジャンル、楽器で再生します。

彼らはどのようにしてそれを行ったのでしょうか?

この AI システムは 2 つの最新テクノロジーに基づいています

<オル>

自動回帰モデルによる高品質オーディオの合成

監視されていない方法でのドメイン間の変換

自動回帰モデルはデコーダーとしてトレーニングされており、高品質でリアルなオーディオを生成できます。 2 番目のテクノロジーは、教師付き環境で学習問題を管理するには多数の楽器の大規模なデータセットが必要になるため、物事をより実用的にする役割を果たします。

研究者はユニバーサルエンコーダを開発し、各入力に適用しました。これにより、ネットワーク全体をトレーニングする負担が軽減され、聞いたことのない音楽ドメインを、遭遇した他のドメインに変換できるようになりました。

ネットワークアーキテクチャ |ドメインの混乱はトレーニング中にのみ適用されます

彼らは、ドメイン固有のデータがエンコードされていないことを確認しながら、[ドメイン混乱ネットワーク経由で] ユニバーサルエンコーダーをトレーニングしました。ユニバーサルエンコーダは入力データを記憶しませんが、セマンティックな方法でエンコードします。これを行うために、研究者らはランダムなローカルピッチ変調によって入力信号 (オーディオフォーマット) を歪めました。

参照:arXiv:1805.07848

ネットワークはノイズ除去オートエンコーダーとしてトレーニングされているため、元の入力信号の歪みのない形式を復元できます。システムは、ドメイン外の入力信号を適切な出力ドメインに投影する方法を徐々に学習します。

研究者は、それらのドメインからの数千のサンプルを含む、6 種類のクラシック音楽ドメインでネットワークをトレーニングしました。彼らは、cuDNN で高速化された PyTorch 深層学習フレームワークを 8 つの NVIDIA Tesla V100 GPU で実行しました。ネットワークを完全にトレーニングするのに 8 日間かかりました。

結果

AI はプロのミュージシャンほど優れたものではありませんが、リスナーはどれがオリジナルの音声でどれが人工的に生成された音声であるかを区別するのが難しいと感じることが何度かあります。

このシステムは、手拍子や口笛など、聞こえない音楽ソースを効果的に処理し、高品質のオーディオを生成します。ネットワーク全体を再トレーニングすることなく、新しい楽器を統合できます。

読む:Facebook AI ロボットがシャットダウン – 実際に何が起こったのか?

開発者らによると、彼らの研究は、音楽の自動作曲や転写など、他の複雑なタスクにも新たな扉を開く可能性があるという。さらに、潜在空間サイズを小さくすることでデコーダをより「創造的」にすることができ、これにより、元のオーディオとの関連性が失われるという意味で、エキサイティングな自然な出力を生成できるようになります。

世界のタイニーハウス：20マイクロメートルの微細構造スマホのデータからAIで寿命を予測

産業技術