Facebookは前例のない精度で誰の声もコピーできるAIを開発

近年、機械学習技術は大きく進歩しています。これらの手法は、オブジェクトや顔を認識し、リアルな画像を生成するのに非常に効果的です。

しかし、オーディオに関して言えば、人工知能は失望のようなものです。最高のテキスト読み上げシステムでさえ、イントネーションの変更などの基本的な機能が欠けています。スティーブン・ホーキングの機械で生成された声を聞いたことがありますか？時々、彼の文章を理解するのが本当に難しくなります。

現在、Facebook AI Researchの科学者は、既存のテキスト読み上げシステムの制限を克服する方法を開発しました。彼らは、MelNetという名前の生成モデルを構築しました。これは、驚くほどの精度で人間のイントネーションを生成できます。実際、それは誰の声でも流暢に話すことができます。

ほとんどの深層学習アルゴリズムは、実際の音声パターンを再生成するために大規模なオーディオデータベースでトレーニングされています。この方法論の主な問題は、データの種類です。通常、これらのアルゴリズムは、大幅に変化するタイムスケールで複雑な構造を持つオーディオ波形記録でトレーニングされます。

これらの録音は、音の振幅が時間とともにどのように変化するかを表しています。1秒のオーディオには数万のタイムステップが含まれています。このような波形は、さまざまなスケールで特定のパターンを反映しています。

波形の既存の生成モデル（SampleRNNやWaveNetなど）は、ほんの一瞬でしか逆伝播できません。したがって、数秒のスケールで出現する高レベルの構造をキャプチャすることはできません。

一方、MelNetは、（音声波形の代わりに）スペクトログラムを使用して深層学習ネットワークをトレーニングします。スペクトログラムは、可聴周波数の全スペクトルとそれらが時間とともにどのように変化するかを示す2D時間周波数表現です。

同じ4秒のオーディオコンテンツのスペクトログラムと波形パターン

1D時間領域波形は、1つの変数（振幅）の経時変化をキャプチャしますが、スペクトログラムは、さまざまな周波数の経時変化をキャプチャします。したがって、音声情報はスペクトログラムにより密に詰め込まれます。

これにより、MelNetは、数秒間にわたって一貫性のある無条件の音声および音楽サンプルを生成できます。また、条件付き音声生成とテキスト読み上げ合成も完全にエンドツーエンドで実行できます。

参照：arXiv：1906.01083 | GitHub

情報の損失を減らし、過度の平滑化を制限するために、彼らはそれぞれ高解像度のスペクトログラムをモデル化し、表現力の高い自己回帰モデルを使用しました。

研究者は多数のテッドトークでMelNetをトレーニングし、その後、数秒でランダムなフレーズを言っている話者の声を再生することができました。以下は、ビル・ゲイツの声を使ってランダムなフレーズを言うMelNetの2つの例です。

「ポートはスモーキーな味わいの強いワインです。」

「イベントが悪い方向に進むと眉をひそめます。」

その他の例はGitHubで入手できます。

MelNetは非常にリアルなオーディオクリップを作成しますが、長い文や段落を生成することはできません。それにもかかわらず、システムはコンピューターと人間の相互作用を改善する可能性があります。

多くのカスタマーケアの会話には短いフレーズが含まれます。 MelNetを使用して、このような対話を自動化したり、現在の自動音声システムを置き換えて発信者のエクスペリエンスを向上させることができます。

読む：FacebookAIは音楽をあるスタイルから別のスタイルに変換する

ネガティブなことに、このテクノロジーは偽のオーディオコンテンツの新時代の不安を引き起こします。そして、人工知能の他の進歩と同様に、それは答えるよりも多くの倫理的な質問を提起します。

産業技術