Facebookは前例のない精度で誰の声もコピーできるAIを開発
- MelNetという名前の新しいディープラーニングモデルは、驚くほど正確に人間のイントネーションを生成できます。
- トレーニングが完了すると、数秒で誰の声も再生できます。
- 研究者は、ビル・ゲイツの声をどれだけ正確に複製できるかを示しています。
近年、機械学習技術は大きく進歩しています。これらの手法は、オブジェクトや顔を認識し、リアルな画像を生成するのに非常に効果的です。
しかし、オーディオに関して言えば、人工知能は失望のようなものです。最高のテキスト読み上げシステムでさえ、イントネーションの変更などの基本的な機能が欠けています。スティーブン・ホーキングの機械で生成された声を聞いたことがありますか?時々、彼の文章を理解するのが本当に難しくなります。
現在、Facebook AI Researchの科学者は、既存のテキスト読み上げシステムの制限を克服する方法を開発しました。彼らは、MelNetという名前の生成モデルを構築しました。これは、驚くほどの精度で人間のイントネーションを生成できます。実際、それは誰の声でも流暢に話すことができます。
MelNetは既存の機械の音声とどのように異なりますか?
ほとんどの深層学習アルゴリズムは、実際の音声パターンを再生成するために大規模なオーディオデータベースでトレーニングされています。この方法論の主な問題は、データの種類です。通常、これらのアルゴリズムは、大幅に変化するタイムスケールで複雑な構造を持つオーディオ波形記録でトレーニングされます。
これらの録音は、音の振幅が時間とともにどのように変化するかを表しています。1秒のオーディオには数万のタイムステップが含まれています。このような波形は、さまざまなスケールで特定のパターンを反映しています。
波形の既存の生成モデル(SampleRNNやWaveNetなど)は、ほんの一瞬でしか逆伝播できません。したがって、数秒のスケールで出現する高レベルの構造をキャプチャすることはできません。
一方、MelNetは、(音声波形の代わりに)スペクトログラムを使用して深層学習ネットワークをトレーニングします。スペクトログラムは、可聴周波数の全スペクトルとそれらが時間とともにどのように変化するかを示す2D時間周波数表現です。
同じ4秒のオーディオコンテンツのスペクトログラムと波形パターン
1D時間領域波形は、1つの変数(振幅)の経時変化をキャプチャしますが、スペクトログラムは、さまざまな周波数の経時変化をキャプチャします。したがって、音声情報はスペクトログラムにより密に詰め込まれます。
これにより、MelNetは、数秒間にわたって一貫性のある無条件の音声および音楽サンプルを生成できます。また、条件付き音声生成とテキスト読み上げ合成も完全にエンドツーエンドで実行できます。
参照:arXiv:1906.01083 | GitHub
情報の損失を減らし、過度の平滑化を制限するために、彼らはそれぞれ高解像度のスペクトログラムをモデル化し、表現力の高い自己回帰モデルを使用しました。
結果は印象的です
研究者は多数のテッドトークでMelNetをトレーニングし、その後、数秒でランダムなフレーズを言っている話者の声を再生することができました。以下は、ビル・ゲイツの声を使ってランダムなフレーズを言うMelNetの2つの例です。
- https://www.rankred.com/wp-content/uploads/2019/07/Ai-Voice-2-port.mp3
「ポートはスモーキーな味わいの強いワインです。」
- https://www.rankred.com/wp-content/uploads/2019/07/Ai-voice-.mp3
「イベントが悪い方向に進むと眉をひそめます。」
MelNetは非常にリアルなオーディオクリップを作成しますが、長い文や段落を生成することはできません。それにもかかわらず、システムはコンピューターと人間の相互作用を改善する可能性があります。
多くのカスタマーケアの会話には短いフレーズが含まれます。 MelNetを使用して、このような対話を自動化したり、現在の自動音声システムを置き換えて発信者のエクスペリエンスを向上させることができます。
読む:FacebookAIは音楽をあるスタイルから別のスタイルに変換する
ネガティブなことに、このテクノロジーは偽のオーディオコンテンツの新時代の不安を引き起こします。そして、人工知能の他の進歩と同様に、それは答えるよりも多くの倫理的な質問を提起します。
産業技術
- スイッチ付き回路
- 開発キットはAlexa統合をスピードアップします
- 低電力デバイスはシリコン蝸牛で聞くことができます
- オーディオエッジプロセッサがIoTデバイスでの音声統合を可能にする方法
- BLEを介したオーディオが常時オンの音声アクティベーションに適合する場合
- ルネサスは仮想化支援機能を備えた28nmMCUを開発
- 低電力の常時接続音声コマンドシステムの設計上の考慮事項
- Facebookは偽のビデオメトリクスで広告主をだましましたか?
- KBコンポーネントは、自動化スペシャリストのスイスログとロジスティクスを開発しています
- CNC支援による手動操作が可能な旋盤
- 精度と安全性を備えた自律型モバイルプラットフォームトランスポート