コミュニケーションが一巡します–私たちは音声優先の世界に戻りますか?
アルカテル-ルーセントエンタープライズのクレイグウォーカー
Siri、Cortana、 Google などのパーソナルアシスタントの波に乗って アシスタント、そして人工知能(AI)と分析を活用して個人的な仲間を構築する新しい新興企業は、テクノロジーとの新しい音声制御の関係に向かっていることが明らかになりつつあります。
消費者市場ですでに見たように、これらの音声アクティベーションシステムは、アクティビティの簡素化と自動化に多大なメリットをもたらす可能性があるため、最終的にはエンタープライズ環境に組み込まれることはほぼ間違いありません。
>ここでは、アルカテル-ルーセントエンタープライズのクラウドサービスディレクター、クレイグウォーカー氏 は、「2001年宇宙の旅」から「HAL」の完全な類似性を見るまでには長い時間がかかるかもしれないが、ビジネスの運営方法を改善できるテクノロジーはすでにここにあると説明しています。
ライト、カメラ、アクション!
医師が「システム:メアリー・スミスのチャートを次のように更新する」と言うのがどれほど簡単か考えてみてください。「腹痛を経験している患者、200MGの「SuperAntiGas」の薬局注文を発行し、Dr.FeelBetterに署名しました。」または、会議室では、どのリモコンがプロジェクターとスクリーンに取り付けられているかを判断するのに苦労する代わりに、「システム:プロジェクターの電源を入れ、テレビの電源を入れ、照明を暗くしてください」という簡単な音声要求を行います。
課題
では、音声優先への道はどこにあるのでしょうか。音声分析会社、 VoiceLabs は、消費者の世界で音声優先アプローチをサポートするために必要なさまざまなレイヤーに関するビューを提供しています。ただし、単純な消費者ベースのユースケースから、エンタープライズの世界でより音声優先の環境を提供するように移行するには、いくつかのことが必要になります。
エンタープライズシステムを音声コマンドに依存させ始めるには、セキュリティが重要になります。誰かが話すだけで重要な機器やシステムをコマンドできるようにする必要がありますか?答えは明らかにノーです。プライバシーも最大の関心事であり、上記の医師の例は十分に単純に見えますが、規制の文脈でこれを考える必要があります。これらの口頭の命令が患者の医療情報を第三者に公開した場合、米国のHIPAA規制に従って、患者の権利は侵害されますか?
安全なアクセス
テクノロジーが安全なアクセスをサポートできる音声認識システムの次のステップをすでに見ています。銀行は、テレフォンバンキングシステムに音声認証を導入している銀行の1つです。これにより、一部の顧客はアカウントのセキュリティに少し不安を感じるかもしれませんが、私は、eコマースで見た採用サイクルに従って、クレジットカード詐欺の最初の懸念を克服する必要があったと感じています。オンライン購入で。
音声認識システムの継続的な革新と、音声システムのセキュリティをエンタープライズ環境で実行可能にし、適切な権限を持つ許可されたユーザーのみが関連するアクションを実行できるようにする改善を引き続き確認します。
また、電子レンジがあなたをスパイしていない可能性がありますが、一部のデバイスは常にオンで、常にリッスンしており、録音する可能性があります。プライバシー侵害、産業スパイ、または法的な危険のいくつかのよく知られた事例は、採用を停滞させる可能性があります。これは、ユーザーが継続的な監視の欠点を危険にさらすことなくメリットを享受できるように、大きなオン/オフスイッチまたは機能を音声優先製品に含める必要があることを示唆しています。ハッキングの取り組みを防止および検出するために、安全なソフトウェアアクセスも製品に導入する必要があります。
さらに効果的な音声認識システムの構築
最初の使用例は、主に音声応答システムに関するものです。コールセンターの観点からでも、車やスマートフォンに実装されている場合でも同じです。しかし、私たちの多くが直接の経験から知っているように、これはせいぜいわずかに機能します。企業全体での採用について現実的に考える前に、技術開発を通じて認識とコンテキスト化を改善する必要があります。
カーネギーメロン大学のスフィンクスプロジェクトなどの研究プログラムは、言語認識機能を強化し続けています。 Mary Meekerによるインターネットトレンドレポートによると、2016年にGoogleの音声認識システムは約90%の精度で500万語以上を認識できましたが、それでも十分に広範で正確ではありません。 90%の精度は、病院の生命維持システムや公益事業者のネットワークとやり取りするのに十分ですか?
言葉を認識するだけでなく、言葉をどうするかということでもあります。ここで、認知エンジンとAIが活躍します。業界最大のプレーヤーの一部–たとえば、 Microsoft 、オープンソースの認知認識エンジンを使用して、単語のコンテキストを理解するために活用できます。 「どうすればグリーンパークに行くことができますか?」簡単に聞こえるかもしれませんが、状況に応じて説明する必要があります。
場所の認識は、ロンドンのグリーンパークと交通手段に関する仮定を意味している可能性が高いことを示している可能性があります。ピカデリーサーカスに座っていた場合、答えは「ピカデリー線でウェストバウンドに1つ停車します」となる可能性がありますが、ここでは、マンチェスターやバーミンガムのグリーンパークではなく、ロンドンのグリーンパークであると想定しました。
より深い意味の探求
本当の課題は、音声認識システムの背後にあるものにあります。IoTデバイスのシステム自体への統合と、要求されたコマンドが意味をなすようにすることの両方です。ここでは、これらの認知エンジンをチェックおよび検証システムとしてさらに活用する必要があります。
誰かが誤ってリアクター3ではなくリアクター4の冷却システムをオフにするように命令した場合、または医師が誤って400グラムの代わりに400グラムと言ったために、システムを使用して有害な薬を処方した場合を考えてみてください。 400ミリグラム。
これらは極端な例かもしれませんが、人為的エラーを防ぎ、音声制御の要求に関連するアクションを理解するためのより広範なインテリジェンスをもたらすために自動化されているアクションの全体像が必要になります。たとえば、「冷却システムを原子炉4にオフにする」は正しいかもしれませんが、システムはそれらのアクションを実装するための一連の操作手順を理解する必要があります。
真の音声統合ソリューション用のAPIプラットフォームの作成
真の音声制御エンタープライズ環境の開発と戦略的に結びつく可能性のある興味深い要素は、従来の音声通信の世界で起こっている革新から来ています。企業ではCPaaS(Communication Platform as-a-Service)が爆発的に増加しており、APIを活用して今日のアプリケーションを音声統合ソリューションに変換しています。
現在、主要な音声通信ベンダーの一部がこの市場に参入しており、CPaaSインフラストラクチャに標準化されたAPIセットを提供して、企業が通信をビジネスプロセスに統合できるようにしています。
従来、統合は音声およびビデオサービスを既存のアプリケーションに組み込むようなものと見なされていましたが、オンラインアプリケーションからバンキングアドバイザーとの音声通話に移行できるバンキングアプリケーションを考えてみてください。これらは、 CPaaSの豊富なAPIインフラストラクチャを活用してアプリケーションや物と通信することによる「音声優先」環境。
通信インフラストラクチャの要件の背後で、音声技術の急速な発展を見る前に、CPaaSまたは他のプラットフォームがデバイスと通信する方法を実際に標準化する必要があります。今日の消費者ベースの音声制御システムにはそれぞれ独自のインターフェースと独自のAPI統合があり、数十年前の歴史的な「ベータ対VHS」の戦いと同様に、製品の陳腐化につながる可能性があります。
消費者が最新の「スマートコーヒーメーカー」に投資したくないのと同じように、それを制御するプラットフォームが廃止されたばかりであることに気付くだけで、企業は新しいテクノロジーへの投資が時代遅れにならないようにしたいと考えています。リターンを実現することができます。
最高のものはまだ来ていません
良いニュースは、潜在的な退行を最小限に抑えるのに役立つ一連のテクノロジーが作業中にあることです。標準化されたプラットフォームを構築するために、IoTivityなどのフレームワークが開発されています。消費者向けの新しい音声アプリケーションの価値、メリット、急速な拡大はすでに見られています。近い将来、いくつかの基本的なユースケースが企業に移行することがわかります。
長期的には、音声認識、音声セキュリティ、デバイス接続の簡素化/標準化の進歩が続くにつれて、複雑さを軽減し、生産性を向上させるために、消費者と企業の両方の世界で音声優先の活動がますます増えるでしょう。
このブログの作成者は、Alcatel-LucentEnterpriseのクラウドサービスディレクターであるCraigWalkerです
モノのインターネットテクノロジー