工業製造
産業用モノのインターネット | 工業材料 | 機器のメンテナンスと修理 | 産業プログラミング |
home  MfgRobots >> 工業製造 >  >> Industrial Internet of Things >> モノのインターネットテクノロジー

音声インターフェースの民主化

歴史書では、音声制御をヒューマンマシンインターフェースで行われた最も重要な進歩と見なすことができます。タイピングもポインティングも必要ありません。必要なことを言うだけです。この分野での最初の進歩は、私たちが何が可能であるかを理解し始めたスマートスピーカーの出現まで、足を引っ張っていました。現在、電話、ヘッドセット、ヒアラブル、スマートホームの認識、機能、アプリケーションが改善され、競争が続いています。今日最も広く知られているソリューションは、少数のプロバイダーによって制御されるプラットフォームとサービスに依存していますが、それは変化しています。音声アクティベーションは、カスタマイズ、ノイズ耐性の向上、低電力、長距離でどこにでも組み込むことができ、音声認識の大きなプラットフォームと同じくらい効果的です。


(出典:CEVA / Shutterstock)

この機能が重要な役割を果たす民生用オーディオ市場には、興味深い歴史があります。 FutureSourceは、2008年から2012年にかけて、オーディオエクスペリエンスが主にスマートフォンに統合されたため、金額が減少したことを示しています。 2012年から2014年まで、市場は基本的に横ばいでした。その後、2015年から2018年にかけて、主に音声アクティベーションによって駆動され、15%のCAGRで再び成長しました。将来的には、YoleDéveloppementは2023年までに最低30%のCAGRを予測しており、 主に音声認識によって駆動されます 。この成長の大部分は引き続きスマートフォンで発生し、ヘッドセットとヒアラブル、パーソナルアシスタント、スマートホーム機能(テレビ、電化製品など)がそれに続きます。同じレポートでは、消費者がこの制御方法に慣れてくるにつれて、音声制御がはるかに普及するスマートオーディオの第2段階に入っていると結論付けています。

それらが展開される場所はどこでも、目標は差別化を強化することです。スマートフォンやその他のバッテリー駆動のデバイスでは、明らかな利点は常時オンのリスニングをサポートすることです。コマンドを出す前にボタンを押す必要はありません。これには、超低電力のトリガーワード検出が必要です。これは、スタンバイ電力を最小限に抑えるために、ソフトウェアが厳密に一致するハードウェアを意味します。当然のことながら、あなたはあなたのブランドのために、そしておそらく国際市場でも強力に浸透するために、複数の言語でトリガーワードやフレーズをパーソナライズしたいと思っています。それでも、後続のコマンドを主要な音声認識プロバイダーの1つに渡して、要求を解凍することができます。またはおそらくそうではありません。アプライアンスが限られた語彙のサポートのみを必要とする場合、音声認識エンジンをその目標まで拡張できるのであれば、サードパーティの支援は必要ないかもしれません。

もう1つの重要なニーズは、ノイズの多い環境での認識とおそらく認証です。音声認識には、オブジェクト認識に存在するものとは異なる課題があります。たとえば、居間や車の場合、複数の音源が存在する可能性があります。話している人、テレビ、独立した音楽/無線音源、室内と外のノイズ、部屋の表面や車の室内からのこれらすべてのエコーです。コマンドのソースを分離し、エコーをキャンセルし、バックグラウンドノイズを低減するには、ノイズ抑制に加えて、複数のマイク、ビームフォーミング、エコーキャンセルに依存する高度なテクノロジーが必要です。

これらはニーズであり、当然、CEVAなどの利用可能なソリューションはこれらのニーズに対応する準備ができています。最近導入されたCEVAWhisPro™フレーズ認識製品などのソリューションは、CEVADSPプラットフォームで実行されるニューラルネットベースのソフトウェアを使用します。 WhisProはすでに音声トリガーとして「Alexa」と「OKGoogle」をサポートしており、トレーニングでカスタマイズして、顧客が要求したトリガーをサポートできます。多言語をサポートし、複数の音声トリガーを処理できます。トレーニングは複数のノイズバックグラウンドで実行されるため、認識にはノイズ耐性が組み込まれており、クラウド検証を必要とせずに、95%を超える認識と、1時間に1回未満の誤った受け入れを実現します。

特殊な音声ピックアップソリューションであるCEVAClearVox™を追加することにより、開発者はマルチマイクのサポートとビームフォーミングを実現し、エコーキャンセレーションとさらなるノイズリダクションに加えて、遠方界の音声ピックアップを改善できます。 WhisProとClearVoxを組み合わせると、特にノイズの多い環境で、より良い距離(最大7メートル)で競争力のあるトリガー認識が実現します。


Youval Nachum は、オーディオおよび音声製品ラインのCEVAのシニア製品マーケティングマネージャーを務めています。 Youvalは、マーケティング、システムアーキテクチャ、ASIC、および主要なテクノロジー企業のソフトウェアドメインにまたがる、20年以上の学際的な経験をもたらします。彼は、長期的なトレンドを予測し、技術プログラムを成功に導くことに情熱を注いでいます。市場の要件、製品の定義、業界標準、および設計革新を画期的な製品に組み合わせるのに非常に熟練しています。 Youvalは理学士号を取得しています。と修士号テクニオン-イスラエル工科大学で電気工学の博士号を取得。


モノのインターネットテクノロジー

  1. コマンドラインインターフェイス
  2. C# インターフェイス
  3. Java インターフェイス
  4. データをどうすればいいですか?!
  5. Java のインターフェイスと抽象クラス:違いは何ですか?
  6. 発言:VoiceTechが製品検査を後押し
  7. C# - インターフェイス
  8. 音声認識技術はどのように製造プロセスを改善できますか?
  9. 拡張現実はIoTのユーザーインターフェイスになりつつあります
  10. Fluent.ai x BSH:組立ラインを自動化する音声
  11. 圧縮空気業界の団結した声