人工知能は神経活動から音声を生成できます

研究者はリカレントニューラルネットワークを使用して、麻痺してコミュニケーションが取れない人々を支援します。
ネットワークは神経活動を音声音響に変換します。
患者が自然な発話速度で制約のない語彙を伝達するのに役立ちます。

多くの神経学的状態はコミュニケーションの喪失をもたらし、患者は完全に補助器具に頼ることになります。これらのデバイスを使用すると、1分あたり最大10語で1文字ずつ文章を入力できます。ただし、この速度は、1分あたり約150語で行われる日常会話と比較すると遅すぎます。

カリフォルニア大学サンフランシスコ校の研究者は、はるかに高い、または自然なコミュニケーション速度を可能にするために、声道の動きとそれらが生成する音に重点を置いた生体模倣アプローチを使用しました。

彼らは、脳の信号から直接合成音声を生成することが可能であることを示しました。これらの信号は、唇、舌、顎、喉頭を動かすために約100の筋肉を正確に調整し、呼吸を音に形作り、最終的に単語や文を形成します。

チームは、てんかん（神経障害）の治療を受けていた5人の参加者からの高密度皮質脳波検査信号を記録しました。脳の表面に配置された電極が結果の信号を測定している間、すべての参加者は声を出して文章を読むように求められました。

リカレントニューラルネットワーク

研究者たちは、調音ダイナミクスの明示的な中間表現で皮質信号をデコードし、最終的に可聴音声を合成するためのリカレントニューラルネットワークを開発しました。

参照：自然| DOI：10.1038 / s41586-019-1119-1 |カリフォルニア大学サンフランシスコ校

ニューラルネットワークは、皮質信号とともに、参加者が声を出して文章を話す音で訓練されています。彼らはADAMオプティマイザーを使用してアルゴリズムをトレーニングしました。トレーニングの第1段階と第2段階では、それぞれ256と25のバッチサイズが使用されました。

積み重ねられた深いエンコーダー-デコーダーネットワークは、脳信号を明示的に組み込んで、神経活動の主要な生理学的相関をデコードし、それを音声音響に変換しました。電極から直接音響をデコードするように最適化されました。

神経的にデコードされた音声文からの音声合成|研究者の礼儀

この統計マッピングにより、限られたトレーニングデータセットでの一般化が可能になります。研究者は25分間のスピーチで満足のいくパフォーマンスを達成することができ、より多くのデータを提供するにつれてパフォーマンスは継続的に向上しました。

次は何ですか？

この研究は、神経障害に苦しむ患者によってもたらされる大きな障害に対処するための高度な方法を示しています。一般化の結果によると、話者は、話者から独立している同様の運動学的状態空間表現を共有します。モデルの知識（参加者間での運動学から音へのマッピング）を転送できます。

さまざまな人々からの神経活動のこの低次元表現を利用することで、ブレイン・コンピューター・インターフェースの学習を促進することができます。調査結果は、麻痺患者の言語回復を実現するための新しい扉を開くことができます。

読む：AIは研究論文を読み、平易な英語の要約を提供できます

この研究で開発されたニューラルネットワークは、自然な発話速度で制約のない語彙を伝達する機能を提供します。この直接音声合成アプローチは、テキスト出力では利用できないピッチイントネーションなどの韻律要素をキャプチャします。さらに、関節の皮質処理がまだ損なわれていない患者のために使用することを学ぶことはより簡単で直感的かもしれません。

コンピュータとバッテリー用の高度な冷却システム AIは、脳の視覚系のニューロンが見たいものを明らかにします

産業技術