Google の新しい AI が混雑した環境で個々の声を正確に特定

Google は、混雑したエリアで特定の声に焦点を当てることができる新しい AI を開発しました。
視覚信号と聴覚信号の両方を組み合わせて音声を分離します。
この技術には、音声認識を前処理することで、重複する話者に対してより優れたビデオキャプションシステムを提供できる可能性もあります。

人間は、混雑した場所で特定の声を拾い、他のすべての音を消すのが非常に得意です。ただし、これはマシンにとって依然として難しい課題です。彼らは、2 人以上の人が話しているとき、または背景雑音が存在するとき、個々の発話を分離することがまだ苦手です。

Google は現在、音声と背景雑音の混合から単一の音声信号に焦点を当てることができる、深層学習に基づくオーディオビジュアルモデルを開発しました。 AI はビデオを分析し、他のすべての音を抑制しながら、特定の人々の声を強調することができます。

特別なオーディオまたはビデオ形式は必要ありません。 1 つのオーディオトラックを持つすべての一般的なビデオ形式で動作します。ユーザーは聞きたいビデオ内の特定の顔を選択することも、コンテキストに基づいてアルゴリズムに選択させることもできます。

この技術は、ビデオの視覚信号と聴覚信号の両方を組み合わせて音声を分離します。アルゴリズムは、口の動きに基づいて、現在どの人が話しているのかを識別できます。これらの視覚信号は、混合音声における音声分離の品質を大幅に向上させ、サウンドトラックを目に見える話者に関連付けます。

どうやって作られるの?

エンジニアは、トレーニングサンプルを作成するために、トークショーや講義の高品質な YouTube ビデオを大量に収集しました。次に、これらのビデオから 2,000 時間のクリップをフィルタリングしました。フィルタリングされた動画にはきれいな音声が含まれており、視聴者のノイズ、混合音楽、背景の干渉はありません。

次に、このコンテンツを使用して、顔のビデオと、それに関連する音声およびさまざまなソースからの背景ノイズを組み合わせたものを作成しました。彼らはマルチストリーム畳み込みニューラルネットワークを訓練しました。音声混合ビデオから個々の話者の音声を分離します。

サウンドトラックのスペクトログラム表現と、各フレーム内の話者の顔サムネイル (ビデオから抽出) の両方がニューラルネットワークに挿入されます。ネットワークは、聴覚信号と視覚信号をエンコードし、それらを融合して単一のオーディオビジュアルコンテンツを作成する方法を徐々に学習します (トレーニング期間)。

その間に、ネットワークは個々の話者に時間周波数マスクを提供することも学習します。次に、ノイズの多い入力スペクトログラムを乗算してマスクし、干渉やノイズを除去しながらきれいな音声を出力します。

実装の詳細

ネットワークは TensorFlow (オープンソースの機械学習フレームワーク) 上に実装されており、その操作を使用して波形と短時間フーリエ変換を実行します。マスクレイヤーを除くすべてのネットワークレイヤーの後に、Rectified Linear Unit のアクティベーションが続きます。

すべての畳み込み層に対してバッチ正規化が実行されます。これを行うために、彼らは 6 サンプルのバッチサイズを使用し、500 万バッチ (ステップ) でトレーニングしました。音声は 16 KHz にリサンプリングされ、短時間フーリエ変換を計算するためにステレオ音声がモノラルに変換されます。

参照:arXiv:1804.03619 | Google リサーチ

すべての顔エンベディングは、トレーニング前に 25 フレーム/秒にリサンプリングされ、その結果、75 個の顔エンベディングの入力ビジュアルストリームが得られます。特定のサンプルで欠落フレームが発生した場合、ゼロベクトルを使用しました。

アプリケーション

このテクノロジーは、ビデオの音声認識から、特に複数の人が話している場合の音声強調まで、数え切れないほどの応用が可能です。これにより、さまざまなオーディオ環境で使用できるマイクの種類が広がります。しかし今のところ、YouTube とハングアウトは簡単に始められる場所のように思えます。最終的には、音声増幅イヤフォンや Google メガネにも応用できる可能性があります。

読む:Google、人間と区別できない音声AIを開発 |タコトロン 2

また、この技術には、音声認識を前処理することにより、重複する話者に対してより優れたビデオキャプションシステムを提供できる可能性があります。この機能により、聴覚障害者が電話会議に参加したり、映画ビデオを楽しんだりしやすくなります。

量子生成の乱数が新たな精度基準を設定 PRISM 技術により、時空間における生細胞イメージングの光の回折限界を突破

産業技術