工業製造
産業用モノのインターネット | 工業材料 | 機器のメンテナンスと修理 | 産業プログラミング |
home  MfgRobots >> 工業製造 >  >> Industrial Internet of Things >> モノのインターネットテクノロジー

オーディオエッジプロセッサがIoTデバイスでの音声統合を可能にする方法

オーディオの忠実度に重点を置き、機械学習に最適化されたコアを備えた専用のオーディオエッジプロセッサは、高帯域幅のインターネット接続を必要とせずに、IoTデバイスに音声ユーザーインターフェイスを提供するための鍵です。
音声処理機能は、iOttie AivoConnectなどの消費者向け製品に急速に登場しています。 (出典:Knowles)

ホームオートメーションやeコマースからヘルスケアや自動車に至るまで、IoT機能と音声統合を組み合わせて、変化する需要に対応し、ビジネス上の利点を引き出す業界が増えています。それでも、音声はまだ採用の初期段階にあり、モバイルデバイスやスピーカーを超えて拡大し始めたばかりです。音声は、ユーザーとそのIoTデバイス間の標準的な対話方法になります。この音声優先への移行は、テクノロジーによって消費者の快適さを向上させるという考え以上のものによって支えられています。外出先での音声検索、自然言語処理(NLP)の進歩、人工知能と機械学習の進歩のための音声対応デバイスのグローバルなモビリティにより、新しいアプリケーションを迅速に進化させることができます。

楽しく魅力的な音声対話は、ノイズやその他の気を散らすものが存在する場合の一貫した音質によって制限されます。サウンドをインテリジェントに管理するデバイスの機能は、コミュニケーション能力を左右します。常時接続の音声ユーザーインターフェイス(VUI)は、オーディオおよびビデオデバイス、ホワイトグッズなどのより多くの消費者向け製品や、リモコン、ウェアラブル、Bluetoothなどの幅広いバッテリー駆動デバイスで一般的になると予想されます。スピーカー、セキュリティ、および屋外アクティビティカメラ。克服すべき設計上の課題はありますが、コンポーネントサプライヤとOEMにとって、これらのアプリケーションのニーズを満たす製品を提供する大きなチャンスがあります。

成熟するにつれて音声統合の機会を最大限に活用するために、より多くの処理テクノロジーがクラウドから離れてエッジに移動しています。その結果、ユーザーインターフェイスが改善され、待ち時間とコストが削減され、費用と帯域幅の両方が削減されます。明日のためにIoT対応のCEソリューションを設計するメーカーは、音声統合を製品機能の前提条件と見なす必要があります。エッジで専用の音声処理を展開できるOEMは、これらのアプリケーションを拡張し、ポートフォリオを拡大することができます。

この記事では、IoT常時オン/常時リスニングデバイスにVUIを実装する際の最も一般的な課題について説明します。この記事では、関連する要件と、制御インターフェイス、ソフトウェアスタック、アルゴリズム開発、ユーザースペースアプリケーション開発との統合など、これらの要件に効果的に対処するために必要な設計機能について説明します。

オーディオエッジプロセッサのIoTデバイスへの統合

オーディオの忠実度に重点を置き、機械学習に最適化されたコアを備えた専用のオーディオエッジプロセッサは、高品質のオーディオ通信デバイスをサポートするための鍵です。これらのプロセッサは、一般的なプロセッサのエネルギーのごく一部を使用しながら、従来のアルゴリズムとMLアルゴリズムを使用してオーディオを処理するのに十分な計算能力を提供できます。また、処理はデバイスで行われるため、その情報をクラウドに送受信するよりもはるかに高速です。

IoTデバイスは、オーディオプロセッサを統合して、ボイスウェイクなどの豊富な機能を追加します。クラウドにはいくつかの大きなメリットがありますが、エッジ処理により、ユーザーは高帯域幅のインターネット接続を必要とせずに、いつでもデバイスの全機能を利用できます。たとえば、エッジオーディオプロセッサは、コンテキストデータをローカルで安全に保ちながら、コンテキストデータを使用したオーディオの低遅延処理を通じて、仮想通信で優れたユーザーエクスペリエンスを実現します。

音声統合の課題

音声通話、制御、および対話のアプリケーションの機会は増え続けています。ただし、デバイスが増えると、断片化が進み、音声の統合が難しくなります。 Bluetoothスピーカー、家電製品、ヘッドホン、ウェアラブル、エレベーターなど、各アプリケーションに音声制御を統合する方法は異なります。ボイスウェイクトリガーの追加は簡単ですが、エンタープライズグレードのBluetoothスピーカーとヘッドセットの設計ははるかに複雑です。そのスピーカーに真のワイヤレスステレオ(TWS)統合が含まれている場合、複雑さが再び高まります。

さらに、さまざまなアプリケーションでは、さまざまなエコシステムとの音声統合が必要です。たとえば、ほとんどのスマートTVに音声を実装するには、Linuxエコシステムで作業する必要がありますが、家電製品で音声を取得するには、マイクロコントローラー(MCU)エコシステムで作業する必要があります。これらすべての統合には、それを行うための一般的な推奨方法がありますが、常にバリエーションがあり、複雑さが増します。

高品質のマスマーケット開発ソリューションは、これらの課題を克服し、新しいテクノロジーを迅速に市場に投入して、私たちの仕事、生活、コミュニケーションの急速に進化する方法をサポートするために不可欠です。これらの課題に対応するには、適切なソリューションで複数の設計要件に対応する必要があります。

主要な設計要件への対応

消費電力

VUIデバイスがコマンドを受信するには、コマンドを常にオン/常にリッスンしている必要があります。これらのデバイスが接続されているかどうか、特にバッテリー駆動の場合、消費電力の制限は設計上の大きな課題となる可能性があります。

音声コマンドシステムでは、少なくとも1つのマイクが常にアクティブである必要があり、ウェイクワードの認識を担当するプロセッサもアクティブである必要があります。独自のアーキテクチャ、ハードウェアアクセラレータ、および特別な命令セットで設計されたオーディオエッジプロセッサは、オーディオおよびMLアルゴリズムを最適に実行できます。これらの最適化は、消費電力の削減に役立ちます。

レイテンシ

音声起動デバイスでは、遅延に対する許容度はありません。 200ミリ秒を超える遅延が認識された場合でも、人間は音声通話で互いに話し始めたり、音声アシスタントにコマンドを繰り返したりします。必要な消費者の受け入れを得る音声統合デバイスを開発するには、エンジニアと製品設計者は、業界の仕様と最高のユーザーエクスペリエンスに準拠するために、システム全体に最適化されたオーディオチェーンを提供する必要があります。したがって、エッジプロセッサでの低遅延処理は、高品質の音声通信を確保するための重要な要件です。

統合

さまざまなVUI実装用のハードウェアとソフトウェアの選択に関しては多くのオプションがあるため、統合段階のさまざまな時点で課題となる可能性のある要件があります。途中で考慮すべきいくつかの重要な設計上の考慮事項には、以下で説明するものが含まれます。

ハードウェア統合

デバイスの使用法、アプリケーション、およびエコシステムに応じて、VUIシステムを実装するためのさまざまなハードウェアアーキテクチャがあります。各VUIデバイスには、オーディオをキャプチャして処理するためにオーディオプロセッサに接続された、単一のマイクまたはマイクアレイのいずれかのマイクが含まれます。 Knowlesによるこの最近の組み込み記事では、私の同僚が、VUIシステムを実装するためのハードウェアアーキテクチャの考慮事項と、それぞれの長所と短所を確認しています。

ホストソフトウェアの統合

上記のように、さまざまなオペレーティングシステムとドライバから選択できます。理想的には、オーディオプロセッサには、ホストプロセッサと接続するように構成されたファームウェアとドライバのセットが付属しています。 AndroidやLinuxなどのオペレーティングシステムは通常、ホストプロセッサで実行されます。

カーネルスペースで実行されるドライバーソフトウェアコンポーネントは、制御インターフェイスを介してファームウェアと対話し、オーディオエッジプロセッサからのオーディオデータは、標準のAdvanced Linux Sound Architecture(ALSA)インターフェイスを介してユーザースペースで読み取ることができます。

ソフトウェアを他のホストシステムと統合するには、ソフトウェアリリースパッケージで提供されているオーディオプロセッサドライバをカーネルイメージに接続するのが複雑な作業になる可能性があります。これには、ドライバーのソースコードをカーネルソースツリーにコピーし、いくつかのカーネル構成ファイルを更新し、関連するハードウェア構成に従ってデバイスツリーエントリを追加することが含まれます。

これに対する解決策は、正確または類似の構成で事前に統合された標準リファレンスデザインを使用することです。

理想的な状況では、オーディオエッジプロセッサは、統合のための合理化されたソフトウェアスタックを提供し、プロセスをさらに簡素化するシステムレベルのソリューションとして、事前に統合および検証されたアルゴリズムを備えています。

アルゴリズムの統合

アルゴリズム統合のトピックに取り組んでいますが。通常、さまざまなユースケースをいつでも切り替えるためにカスケードする複数のアルゴリズムがあります。音声ウェイクの場合でも、設計にはマルチマイクビームフォーマー、エッジ音声ウェイクエンジン、およびクラウドベースの検証が必要です。これは、パフォーマンスを最適化するために少なくとも3つのアルゴリズムが連携して機能することを意味します。 AlexaまたはGoogleHomeのキーワードと統合するデバイスには、複数のアルゴリズムが必要です。多くの場合、さまざまなベンダーから提供されており、1つのデバイスで一緒に最適化する必要があります。

1つの解決策は、検証済みのアルゴリズムが事前に統合され、ホストシステムとは独立して開発およびテストされたオーディオエッジプロセッサを選択することです。

フォームファクターの統合

デバイスが今日取ることができる多くのフォームファクタがあります。それぞれに、複数のマイクがインストールされた独自の構成があります。マイクとスピーカーの距離と配置は、パフォーマンスに大きな影響を及ぼします。パフォーマンスの調整と最適化は、最終的なフォームファクターとターゲットのユースケースに基づいて変更する必要があります。マイクのシーリング、デバイスの音響処理、振動減衰など、パフォーマンスに影響を与える製造のバリエーションもあります。

プライバシー

多くのオーディオプロセッサはウェイクワードを検出し、すぐに情報をクラウドに送信して、そこで解釈され、処理されます。大きな問題は、オーディオデータがクラウドに入ると、ユーザーはデータを制御できなくなるため、プライバシーのリスクが高くなることです。この課題の解決策は、デバイス上でローカルに「エッジで」コマンド解釈と応答ロジックを実行できるエッジAIプロセッサを選択することです。

これにより、機密性の高い個人用オーディオデータを、私たちの希望に反して使用できるクラウドに送信することなく、ローカルに保つことができます。 VUIの実装は、よりプライベートになるだけでなく、応答が速くなり、ユーザーの操作がはるかに自然になります。これは、エッジAIプロセッサが既存のユースケースを前進させて、私たちが毎日使用し信頼しているデバイスの有用性を最大化する方法の良い例です。

ハードウェアとソフトウェアのインターフェース

VUI実装の設計要件は複雑になる可能性があり、音声統合を備えたデバイスを迅速に市場に投入することが困難になる可能性があります。 OEMおよびシステムインテグレーターは、Knowles AISonic Bluetooth標準ソリューションキットなどの標準ソリューション開発キットを使用することで、リスクを大幅に削減できます。このようなキットは、プロトタイプの事前構成された開始点を提供します。これにより、設計者は、上記で説明した設計上の課題を心配することなく、独自のイノベーションを開発できます。設計者は、事前に統合および検証されたアルゴリズム、事前に構成されたマイク、およびホストプロセッサとオペレーティングシステムと互換性のあるドライバを備えた開発キットを探す必要があります。

アーキテクチャと開発環境を開くオーディオエッジプロセッサは、オーディオアプリケーション開発者に新しいデバイスとアプリケーションを作成するためのツールとサポートを提供することにより、イノベーションを加速します。将来のオーディオデバイスは共同作業になります。


モノのインターネットテクノロジー

  1. 5Gが産業用IoTをどのように加速するか
  2. なぜIoTのエッジコンピューティングなのか?
  3. IoTが職場をどのように接続しているか
  4. 世界的なメリットを提供するIoT
  5. IoTはエンタープライズモビリティをどのように形作っていますか?
  6. IoTの支払い:収益性の高いIoTビジネスモデルを構築する方法
  7. IoTに対するキルチェーン攻撃の脅威はどれほど危険ですか?
  8. IoTは職場の安全にどのように革命をもたらしていますか?
  9. IoTが顧客体験をどのように強化しているか
  10. IoT開発の課題の克服
  11. エッジデバイスとは何ですか?なぜそれがIoTに不可欠なのですか?