低電力の常時接続音声コマンドシステムの設計上の考慮事項

音声アシスタントと統合は、市場に導入されたほとんどの製品、アプライアンス、およびテクノロジーに実装されています。そうは言っても、これらの便利な音声アシスタントが常にオンになって、大量の電力を使用することが多いアクティベーション/ウェイクワード（「OKGoogle」や「Alexa」など）をリッスンしていることは周知の事実です。テクノロジーが急速に進歩している世界では、これがエネルギー消費に与える影響を考慮することが不可欠です。

この記事では、音声アクティビティ検出（VAD）を使用した低電力の常時オンの音声コマンドシステムの設計上の考慮事項について説明します。使いやすく、エネルギー効率の高い音声ユーザーインターフェイス（VUI）を作成するために必要なコンポーネントを選択する際の、トレードオフと考慮事項について説明します。

VAD機能は、ウェイクワードを聞く前に環境内の人間の声を検出します。つまり、誰も家にいないときでも、音声アシスタントが不要なエネルギーを浪費することはありません。世界中で42億のデジタル音声アシスタントが使用されていると推定され、この数は2024年までに2倍になると予想されます。音声統合に依存する音声アシスタントソフトウェアやその他の製品にこのテクノロジーを実装すると、それらのエネルギー消費量が大幅に削減されます。音声アシスタントを使用する人。

VUIシステムを実装するためのハードウェアアーキテクチャはいくつかあります。一般に、一般的な音声ユーザーインターフェイスの実装は、音声をキャプチャして処理するためにオーディオプロセッサに接続された単一のマイクまたはマイクアレイのいずれかのマイクで構成されます。

着信オーディオストリームは、エッジオーディオエッジプロセッサ、オーディオエッジプロセッサが組み込まれたスマートマイク、または標準のアプリケーションプロセッサ（AP）で処理できます。エッジオーディオプロセッサは、オーディオ信号の低電力および低遅延処理用に最適化されています。入力オーディオの特殊な処理を提供することに加えて、エッジオーディオプロセッサを使用してオーディオ出力信号を後処理することもできます。 VUIシステムがクラウドに接続されている場合、オーディオエッジプロセッサは、ワイヤレス接続を備えたメインのシステムオンチップ（SoC）を介してクラウドVUIインターフェイスと通信することもできます。このホワイトペーパーでは、VUIシステムの2つの異なる実装と、それぞれのトレードオフについて説明します。

超低電力VAD（音声アクティビティ検出）

図1に示すアーキテクチャは、ウェイクトリガーを提供するアナログマイクとアナログコンパレータを含む、アナログ信号パスを使用する超低電力VUIをサポートします。音響活動が検出されると、アナログ信号チェーンは、音声キャプチャのためにオーディオプロセッサをウェイクアップするための割り込みを生成します。このデバイスには、ユーザーがボタンを押してオーディオプロセッサをウェイクアップする「プッシュツートーク」機能を含めることもできます。

アナログウェイクマイクは常に環境をリッスンしている必要があるため、このマイクとコンパレータはほとんど電力を消費しません。最も単純なウェイクアップトリガーモードでの消費電力が1mW未満で、高度なオーディオ処理用の1MBのメモリを備えた効率的なオーディオプロセッサの例は、KnowlesIA8201です。図1に示すアプローチは、リモートコントロールやウェアラブルなどのデバイスで常時オンのVUIにシンプルな低電力AAD（音響活動検出）アプローチを提供しますが、制限があります。この実装は、あらゆる音響信号に対してオーディオプロセッサをウェイクアップし、ノイズの多い状況でシステム全体の消費電力を高くする可能性があります。また、クラウドに接続された音声ユーザーインターフェイスシステムでは、ウェイクワード検出の精度を高めるために、ウェイクワードをキャプチャする直前の期間のオーディオデータが必要です。これは一般にプレロールと呼ばれ、Alexa対応デバイスやその他のスマートスピーカーデバイスに必須の要件です。

図2は、スマートスピーカーなどのデバイスのプレロールバッファリングをサポートするアーキテクチャを示しています。これらのデバイスは通常、より大きなバッテリーを搭載している、および/または1回の充電で数か月のバッテリー寿命を必要としない場合があります。 VUIシステムは常にオンで、環境をリッスンし、循環バッファーにプリロールを記録します。プレロールの長さは通常、500ミリ秒のオーディオデータのオーダーであり、周囲のノイズレベルを調整するために使用されます。

常時接続のフロントエンドアーキテクチャを設計するには、いくつかの異なるアプローチがあります。オーディオプロセッサの選択は、使用するマイクの数と、それらがアナログかデジタルかによって異なります。

上記のアーキテクチャでは、音声アクティビティの検出にKnowles IA611、ビームフォーミングにSPH0655LM4H-1 Cornell IIデジタルマイク、オーディオ処理にKnowlesIA8201を使用しています。 Knowles IA611は、次のセクションで説明するように、システム設計者にメリットを提供するスマートマイクです。

マイクの選択

図1に示すアーキテクチャでは、単一のアナログマイクとコンパレータがトリガー入力として使用され、音響アクティビティが検出されたときにオーディオプロセッサをウェイクアップします。ウェイクマイクは、信号対雑音比（SNR）が62dBを超えることが望ましい低電力のアナログマイクである必要があります。 Knowles SiSonic MEMSマイクポートフォリオは、ウェイクマイクにいくつかの選択肢を提供します。たとえば、SPV1840LR5H-B Kaskadeアナログマイクは、オンのときにわずか45µAを消費するのに適しています。マイク、アンプ、コンパレータを含む常時オンのアナログパスは、67µA未満を消費します。市場には非常に低い常時オン電力（10µA）の圧電マイクがありますが、通常はSNRが低く、システムパフォーマンスに影響を与える可能性があります。

図2に示すプレロールバッファリング対応アーキテクチャの場合、Knowles IA611など、オーディオプロセッサが組み込まれ、音声データを2秒の循環バッファで継続的にキャプチャするのに十分なメモリを備えたマイクロフォンは、常時オンの音声アクティビティの実行可能なオプションです。検出。また、AmazonのAlexaなど、移植された音声トリガーとコマンドのエコシステムも付属しています。キーワードが検出されると、プレロールバッファと発声された音声音声の両方がクラウド自動音声認識（ASR）エンジンに送信されます。 IA611の常時オンの音声ウェイクパワーは0.39mA @バッテリー1.8Vで、効率は90％であるため、Bluetoothスピーカーなどのバッテリー駆動デバイスの音声ユーザーインターフェイスに適しています。このデバイスは、デジタルマイクからのPDM入力も受け入れ、システムがウェイクアップしたときにオーディオを通過させることで、ホストBT-SoCプロセッサでのビームフォーミングをサポートするために使用できます。

この常時オンの電源はプレロールアプリケーションでは許容されますが、図1に示すように、非プレロールアーキテクチャについても検討する価値があります。前述のように、アナログウェイクマイクは着信音をトリガーし、オーディオプロセッサ。これは、テレビの電源がオンになっているときなど、ノイズの多い環境では問題になる可能性があります。このような環境では、多くのスプリアスウェイクが発生し、電力が大幅に浪費されます。低電力アナログウェイクマイクの代わりに音声アクティビティ検出を使用すると、キーワードが検出された場合にのみシステムがオンになります。ノイズの多い環境で、音声アクティビティ検出マイクを使用する方が、単純なアナログウェイクマイクよりも効率的である理由を理解するのは理にかなっています。

図3は、IA611でVADを使用する一般的なTVリモコンと、さまざまな音響アクティビティのオン時間で競合する圧電低電力AADマイクとオーディオプロセッサのバッテリー寿命の日数を比較したシミュレーションデータを示しています。音響活動は、テレビやその他の家電製品がオンになっているとき、またはその他の状況でバブルなどが発生しているときに発生する可能性があります。図3に示すように、約3時間でクロスオーバーポイントがあり、アナログAADを使用することの電力の利点があります。競合他社のマイクとIA611の音声アクティビティの検出が消えます。

音声アクティビティ検出ソリューションは、5時間の音響アクティビティオン時間で、競合するAADベースのソリューションよりも8日間のバッテリ寿命を提供します。 2017年に発表されたニールセンの調査によると、この利点を背景に、米国の成人は1日あたり約8時間のテレビを視聴していました。スマートテレビ、ゲーム機、その他のマルチメディアデバイスなど、インターネットに接続されたデバイスの需要が高まるにつれ、典型的な米国の家庭での音響活動の時間も増加し続ける可能性があります。インテリジェントなVADベースのウェイクアップを使用すると、システム設計者はより電力効率の高いVUIシステムを開発できます。

結論

スマートホーム、ホスピタリティ、デジタルワークプレイス、音声支払い、インテリジェントなエネルギー管理、最先端の音声、ヘルスケアから、プラントフロアを変更する産業用IoTアプリケーションに至るまで、音声は柔軟性、効率、持続可能性、新しいテクノロジーへの採用の受け入れを追加します。

音声ユーザーインターフェイスを設計するためのさまざまなハードウェアアーキテクチャとマイクセクションは、エンドデバイスのアプリケーションと設計者の好みに応じて、それぞれわずかに異なるニーズに対応します。たとえば、Alexa対応デバイスとスマートスピーカーには、プレロールバッファリング対応のアーキテクチャが必要です。

エレクトロニクスエンジニアと設計者は、エンドデバイスが音声をどのように活用するか、アクセスしたい機能を慎重に評価し、そこから適切なアーキテクチャとマイクコンポーネントを決定することが重要です。

Raj Senguttuvan は、消費者および産業用アプリケーションの新技術開発、初期段階の事業開発、およびアナログ・デバイセズやテキサス・インスツルメンツなどの企業のプロジェクト管理において15年以上の経験があります。 Knowlesのディレクター、戦略的マーケティングとしての役割で、彼はシステムレベルの開発を指揮し、ベンチャー投資とパートナーシップを推進し、オーディオプロセッサ、アルゴリズム、マイク、センサー、レシーバーなどのIoTおよびコンシューマーテクノロジーのマーケティング戦略を推進しています。 Rajは、コーネル大学でMBAを取得し、ジョージア工科大学で電気工学の博士号を取得しています。

関連コンテンツ ：

コーディングせずにマイクロコントローラーに音声を追加
カスタム音声エージェントへの移行の背後にあるものは何ですか？
音声生体認証ソリューションは認証を対象としています
AIはオーディオチェーンでその声を見つけます
広範な信号処理チェーンにより、音声アシスタントが「正常に機能」する方法
開発キットはAlexaの統合をスピードアップします

Embeddedの詳細については、Embeddedの週刊メールニュースレターを購読してください。

ビジョンベースのドライバーモニタリングシステムが牽引力を獲得ソニーは、自動車用ライダー用のシングルチップにSPADセンサーとロジックをスタックします

センサー