Google の新しい AI が混雑した環境で個々の声を正確に特定
- Google は、混雑したエリアで特定の声に焦点を当てることができる新しい AI を開発しました。
- 視覚信号と聴覚信号の両方を組み合わせて音声を分離します。
- この技術には、音声認識を前処理することで、重複する話者に対してより優れたビデオ キャプション システムを提供できる可能性もあります。
人間は、混雑した場所で特定の声を拾い、他のすべての音を消すのが非常に得意です。ただし、これはマシンにとって依然として難しい課題です。彼らは、2 人以上の人が話しているとき、または背景雑音が存在するとき、個々の発話を分離することがまだ苦手です。
Google は現在、音声と背景雑音の混合から単一の音声信号に焦点を当てることができる、深層学習に基づくオーディオビジュアル モデルを開発しました。 AI はビデオを分析し、他のすべての音を抑制しながら、特定の人々の声を強調することができます。
特別なオーディオまたはビデオ形式は必要ありません。 1 つのオーディオ トラックを持つすべての一般的なビデオ形式で動作します。ユーザーは聞きたいビデオ内の特定の顔を選択することも、コンテキストに基づいてアルゴリズムに選択させることもできます。
この技術は、ビデオの視覚信号と聴覚信号の両方を組み合わせて音声を分離します。アルゴリズムは、口の動きに基づいて、現在どの人が話しているのかを識別できます。これらの視覚信号は、混合音声における音声分離の品質を大幅に向上させ、サウンド トラックを目に見える話者に関連付けます。
どうやって作られるの?
エンジニアは、トレーニング サンプルを作成するために、トークショーや講義の高品質な YouTube ビデオを大量に収集しました。次に、これらのビデオから 2,000 時間のクリップをフィルタリングしました。フィルタリングされた動画にはきれいな音声が含まれており、視聴者のノイズ、混合音楽、背景の干渉はありません。
次に、このコンテンツを使用して、顔のビデオと、それに関連する音声およびさまざまなソースからの背景ノイズを組み合わせたものを作成しました。彼らはマルチストリーム畳み込みニューラル ネットワークを訓練しました。 音声混合ビデオから個々の話者の音声を分離します。
サウンドトラックのスペクトログラム表現と、各フレーム内の話者の顔サムネイル (ビデオから抽出) の両方がニューラル ネットワークに挿入されます。ネットワークは、聴覚信号と視覚信号をエンコードし、それらを融合して単一のオーディオビジュアル コンテンツを作成する方法を徐々に学習します (トレーニング期間)。
その間に、ネットワークは個々の話者に時間周波数マスクを提供することも学習します。次に、ノイズの多い入力スペクトログラムを乗算してマスクし、干渉やノイズを除去しながらきれいな音声を出力します。
実装の詳細
ネットワークは TensorFlow (オープンソースの機械学習フレームワーク) 上に実装されており、その操作を使用して波形と短時間フーリエ変換を実行します。マスク レイヤーを除くすべてのネットワーク レイヤーの後に、Rectified Linear Unit のアクティベーションが続きます。
すべての畳み込み層に対してバッチ正規化が実行されます。これを行うために、彼らは 6 サンプルのバッチ サイズを使用し、500 万バッチ (ステップ) でトレーニングしました。音声は 16 KHz にリサンプリングされ、短時間フーリエ変換を計算するためにステレオ音声がモノラルに変換されます。
参照:arXiv:1804.03619 | Google リサーチ
すべての顔エンベディングは、トレーニング前に 25 フレーム/秒にリサンプリングされ、その結果、75 個の顔エンベディングの入力ビジュアル ストリームが得られます。特定のサンプルで欠落フレームが発生した場合、ゼロ ベクトルを使用しました。
アプリケーション
このテクノロジーは、ビデオの音声認識から、特に複数の人が話している場合の音声強調まで、数え切れないほどの応用が可能です。これにより、さまざまなオーディオ環境で使用できるマイクの種類が広がります。しかし今のところ、YouTube とハングアウトは簡単に始められる場所のように思えます。最終的には、音声増幅イヤフォンや Google メガネにも応用できる可能性があります。
読む:Google、人間と区別できない音声AIを開発 |タコトロン 2
また、この技術には、音声認識を前処理することにより、重複する話者に対してより優れたビデオ キャプション システムを提供できる可能性があります。この機能により、聴覚障害者が電話会議に参加したり、映画ビデオを楽しんだりしやすくなります。
産業技術
- 2026 年のクラウドベース製造ソフトウェア トップ 15:効率と競争力の向上
- インサーキット テストと機能テスト - PCB テストの 2 つの主要なタイプ
- 再び製造工学専攻になるのはクールです
- Mill‑Turn CNC マスタリー:G コードおよび M コード プログラミングの 2026 年のトレンド
- 切削工具のエッジ半径とノーズ半径の違い
- メーカーがテクノロジーについていくことが重要である理由
- サーキュラーエコノミーがブランド体験をどのように改善するか
- 注目に値するスマートロジスティクスの3つの進歩
- あなたのビジネスのためにCNC機械加工を使用することの6つの大きな利点
- レオスタット範囲制限
- セーフティクリティカルプログラムを作成するためのNASAの10のコーディングルール