ロボットのパーソナルアシスタントをユビキタスにする
私は最近MWC上海に出席しました。ロボットは大きかった–非常に大きかった。何十もの企業が、多くのアプリケーションのいずれかでブランド化して提供する顧客を探しているのを見ました。アプリケーションの例を1つだけ取り上げます。それは、ロボットの看護師であるTugです。スターウォーズのより実用的な例を考えていない限り、これはロボットのSF画像とはあまり似ていません。車輪付きのボックスですが、ナビゲーションや障害物の回避など、移動ロボットに期待される多くの機能を備えています。それは病院の周りをナビゲートすることができ、誰かがその前に足を踏み入れると停止し、誤ったIVスタンドの周りを操縦します。エレベーターを呼んで別の階に行くこともできます。
Tugのポイントは、患者に薬と食べ物を届けることであり、すでに米国の37のVA病院に配備されています。忙しいキャンディストライパーの肩から離れる作業負荷を想像してみてください。高齢者介護、教育支援、レストラン、ホテルなど、他にも複数のアシスタントアプリケーションがあります。これは、スマートスピーカーに続くパーソナルアシスタントの次の大きなものと考えてください(Amazonはすでに倉庫で10万台以上のロボットを使用しているため、明らかにEchoの続編として家庭用ロボットに取り組んでいます)。これは空想科学小説ではありません。ホームアシスタントロボットは本日出荷されます。

ロボットヘルスアシスタント(出典:CEVA / Shutterstock)
この種のロボットの製造には明らかな技術的課題があり、自動運転の問題と同じですが、いくつかの明らかな違いがあります。ナビゲーションと障害物の回避は一般的ですが、明確な走行車線と交通管理の概念はこれらのロボットには適用されません。建物内での障害物の回避とナビゲーションがすべてです(一時的に動かない障害物を回避するために再マッピングする必要があります)。自然言語インターフェースは車の中で持ちやすいかもしれませんが、ロボットアシスタントにとっては不可欠かもしれません。薬局が間違った薬を送ったとき、またはレストランが注文を台無しにしたときに、誰がボタンを押すことを学びたいですか?
ガートナーは最近、ロボットのAIとセンシング要件のトップ10リストを作成しました。その中には、次のものが含まれます。
-
コンピュータービジョン–シーン分析、オブジェクト認識など
-
生体認証と認証–誰が私に話しかけ、それらのコマンドを与えることができますか
-
会話型インターフェース–音声認識と自然言語処理
-
音響風景分析–犬の吠え声やガラスの割れる音などの特有のノイズを認識します
-
位置検知–私はどこにいて、何/誰が私の近くにいるのか
-
自律移動–オブジェクトや人と衝突することなく建物内の別の場所にあるターゲットに移動する機能
-
AIは、クラウドだけでなく、ロボットで機能します
これらの機能を備えた今日のシステムを構築するためのデフォルトのアプローチは、マルチコアGPUプラットフォームに基づいてロボットにAIシステムを構築することから始まります。これは理解できることです。製品ビルダーは、従来のアプリケーションでCPU開発ボードを使用するのとほぼ同じ方法で、ASICの詳細を気にすることなく、既成のプラットフォームを使用してソリューションのプロトタイプを作成できます。しかし、製品の量が増加するか、増加するにつれて、コストと顧客満足度/差別化がますます重要になります。既製のソリューションは高価であり、電力を大量に消費し、他の人と同じプラットフォームを使用している場合は区別が困難です。そのため、必然的に大量のソリューションがASICプラットフォームに変わります。プロトタイプに投資したすべての投資を放棄する必要はありません。低コストのGPUプラットフォームはソリューションの一部であり続ける可能性がありますが、かなりのレベルのAI機能を、はるかに費用効果が高く、より高度に統合されたプラットフォームにオフロードできます。
機械学習(ML)アプリケーションでのGPUに対するDSPのワットあたりのパフォーマンスの利点はよく知られています。これは、浮動小数点演算に対する固定小数点演算と、一部のプラットフォームでの量子化の柔軟性に一部起因しています。また、カスタムソリューションの(ボリュームでの)価格優位性はよく知られています。これが、市販のGPUよりもエッジでボリューム/価格に敏感なMLアプリケーションに組み込みDSPが見られる可能性が高い理由です。
しかし、GPUでできることはすべてできるでしょうか?かなり多くのことができることがわかりました。たとえば、コンピュータビジョン(位置決め、追跡、オブジェクト認識、ジェスチャ認識)を取り上げます。このレベルのビジョン処理は、現在、一部の組み込みDSPベースのプラットフォームですでに利用可能です。または、ローカルの再トレーニングをサポートする自律的な動きを取ります(クラウドに移動する必要はありません)。この場合も、このインテリジェンスをサポートするコア認識機能は、GPUにもあるのと同じ機能であり、DSPでも利用できます。
音声認識/認証および音響シーン分析もオフロードできます。これらは(ここにある他の例とともに)オフロードが非常に理にかなっている理由をきちんと強調しています。これらのインテリジェントな操作はそれぞれ、音声のピックアップや方向の解決から、おそらく基本的な単語認識、さらには自然言語処理(NLP)まで、複数のステップに分かれています。最後のステップはやりがいがあり、クラウドに行く必要があるかもしれません。しかし、その前の手順は、組み込みソリューションで非常に快適に処理できます。一部のアプリケーションでは、限られた語彙のみを認識する必要がある場合や、ウィンドウの破損などの非言語的な手がかりを検出する場合は、クラウド(またはローカルGPU)がまったく必要ない場合があります。限られたNLPでさえ、近い将来、エッジでサポートされる可能性があるというヒントがすでにあります。
エッジでAIを使用し、フロントエンドの音声処理やIoTのディープラーニングでこれらのフロントエンド機能をサポートするために、さまざまなソリューションが登場しています。これらのソリューションを使用すると、開発者はロボットのパーソナルアシスタントをユビキタスにするための新たな課題に簡単に対処できます。
Moshe Sheier CEVAの戦略的マーケティングのディレクターであり、CEVAのコアターゲット市場と将来の成長分野の企業開発と戦略的パートナーシップを監督しています。 Mosheは、革新的なDSPベースのソリューションを市場に投入するために、主要なSWおよびIP企業と協力しています。余暇には、モシェはマウンテンバイクに乗って合気道を練習します。
モノのインターネットテクノロジー