工業製造
産業用モノのインターネット | 工業材料 | 機器のメンテナンスと修理 | 産業プログラミング |
home  MfgRobots >> 工業製造 >  >> Industrial Internet of Things >> モノのインターネットテクノロジー

AIのデータから価値を引き出す

自動運転の鍵としてディープラーニングに依存している自律走行車(AV)ベンダーにとって、データはすべてであり、多くの点で唯一のものです。

データは、AV企業が公道で何マイルものテスト経験を積み上げ、ペタバイトの道路伝承を記録して備蓄している理由です。たとえば、Waymoは、7月に実世界で1,000万マイル以上、シミュレーションで100億マイル以上を主張しました。

しかし、業界が尋ねたくないもう1つの質問があります:

AV企業が実際の道路ですでにペタバイトまたはエクサバイトのデータを収集していると仮定します。そのデータセットのどのくらいがラベル付けされていますか?おそらくもっと重要なのは、注釈が付けられたデータがどれほど正確かということです。

EE Timesとの最近のインタビューで、Edge CaseResearchの共同創設者兼CTOであるPhilKoopmanは、「誰もそのすべてにラベルを付ける余裕はない」と主張しました。

データのラベル付け:時間とコストがかかる

注釈は通常、専門家の目で短いビデオクリップを見てから、すべての車、歩行者、道路標識、信号機、または自動運転アルゴリズムに関連する可能性のあるその他のアイテムの周りにボックスを描画してラベルを付ける必要があります。このプロセスには時間がかかるだけでなく、非常にコストがかかります。

「データアノテーション:AIブレークスルーの背後にある10億ドルのビジネス」というタイトルのMediumに関する最近の記事は、品質管理に重点を置いたドメイン固有のラベル付きデータを提供するように設計された「マネージドデータラベリングサービス」の急速な出現を示しています。ストーリーは次のように述べています:

社内のデータラベリングクルーに加えて、テクノロジー企業や自動運転の新興企業もこれらの管理されたラベリングサービスに大きく依存しています…一部の自動運転企業は料金を支払っていますデータラベリング会社は月に数百万ドル以上。

数年前のIEEESpectrumの別の記事では、Drive.aiの共同創設者兼社長であるCarolReileyが次のように述べています。

何千人もの人々が物の周りのボックスにラベルを付けています。運転1時間ごとに、ラベルを付けるのに約800人時間かかります。これらのチームはすべて苦労します。私たちはすでに大幅に高速化しており、常に最適化を行っています。

ドライブなどの一部の企業は、データのラベル付けの面倒なプロセスを加速する方法として、データに注釈を付けるための自動化を強化するためにディープラーニングを使用しています。

ラベルのないデータを使用しましょう

ただし、Koopmanは、「蓄積されたデータから価値を引き出す」別の方法があると考えています。 「記録されたデータのペタバイトのほとんどにラベルを付けずに」これを達成するのはどうですか?

彼は、AV業界がより安全な知覚ソフトウェアの開発をスピードアップできるようにする方法を考案したときに、Edge CaseResearchがこれに「遭遇」したと説明しました。 Edge Case Researchは、これを「ホログラム」と呼んでいます。これは、本質的にAV用に設計された「AI知覚ストレステストおよびリスク分析システム」です。

具体的には、Koopmanが説明したように、「ホログラムはラベルのないデータを使用します」。システムは同じラベルのないデータを2回実行します。

まず、既成の通常の認識エンジンでベースラインのラベルなしデータを実行します。次に、同じラベルのないデータを使用してホログラムが適用され、非常にわずかな摂動(ノイズ)が追加されます。システムにストレスをかけることで、ホログラムは、AIアルゴリズムの知覚の潜在的な弱点を明らかにする可能性があります。

たとえば、ビデオクリップに小さな粒子を追加すると、人間は「そこに何かがあるが、それが何であるかはわかりません」と感じる可能性があります。

しかし、ストレスにさらされたAI駆動の知覚システムは、未知のオブジェクトを完全に見逃すか、しきい値を超えて別の分類ビンに入れる可能性があります。

AIがまだ学習しているときは、その信頼水準を知ることは(AIが何を見ているかを決定するので)役に立ちます。しかし、AIが世界に適用されている場合、信頼水準はあまりわかりません。 AIは、多くの場合、「推測」または単に「想定」しています。

言い換えれば、AIはそれを偽造しています。

ホログラムは、設計上、AI駆動の知覚ソフトウェアを「突く」ことができます。 AIシステムに障害が発生した場所を明らかにします。たとえば、ストレスのかかったシステムは、オブジェクトをシーンから不思議に消えさせることで混乱を解決します。

おそらく、もっと興味深いことに、ホログラムは、ノイズの下で、AIが「ほとんど失敗した」が、正しく推測された場所を特定することもできます。ホログラムは、AI駆動システムが「運が悪かった」可能性があるビデオクリップの領域を開示しています。

ペタバイトのデータにラベルを付けることなく、2回実行することで、ホログラムは、より多くのデータを収集するか、より多くのトレーニングを行うことで、物事が「怪しい」ように見える領域と、「戻ってもう一度見た方がよい」領域を提供できます。 。

もちろん、これはホログラムの非常に単純化されたバージョンです。ツール自体は、実際には「大量のエンジニアリングに裏打ちされた多くの秘密のソースが付属している」ためです。しかし、ホログラムがユーザーに人間によるレビューに値する「良い部分」を伝えることができれば、現在ロックされているデータから真の価値を引き出す非常に効率的な方法になります。

「マシンはシステムのゲームに驚くほど優れています」とKoopman氏は述べています。または、「「p-ハッキング」のようなことを行う」。P-ハッキングは、重要でない結果が重要になるまで、研究者がデータまたは統計分析を収集または選択するときに発生するバイアスの一種です。たとえば、マシンは、存在しないデータ内の相関関係を見つけることができます。

オープンソースデータセット

これがEdgeCase Researchにとって朗報かどうかを尋ねられたクープマン氏は、次のように述べています。「残念ながら、これらのデータセットは研究コミュニティのみが利用できます。商用目的ではありません。」

さらに、このようなデータセットを使用してホログラムを実行する場合でも、データの収集に使用したものと同じ認識エンジンを使用して、AIシステムの弱点を理解する必要があります。

ホログラムのスクリーンショット

以下は、ホログラムの最新の商用バージョンがどのように機能するかを示すスクリーンショットです。


ホログラムエンジンは、知覚システムがこの一時停止の標識を識別できなかったインスタンスを検出し、ノイズの多い背景などのトリガー条件を検出するための強力なツールをアナリストに提供します。 (出典:Edge Case Research)

ホログラムは、ノイズを追加することで、AIシステムが一時停止の標識をほとんど見逃した(オレンジ色のバー)か、一時停止の標識を完全に認識できなかった(下向きの赤いバー)トリガー条件を探します。

オレンジ色のバーは、より多くのデータを収集することにより、ALアルゴリズムの再トレーニングが必要な特定の領域についてAI設計者に警告します。赤いバーを使用すると、AI設計者はトリガー条件を調査して推測できます。AIが一時停止の標識を見逃した原因は何ですか。看板がポールに近すぎませんでしたか?背景にノイズがあったり、コントラストが十分でなかったりしませんでしたか?トリガー条件の十分な例が蓄積されると、特定のトリガーを特定できる可能性があります、とEdge CaseResearchのプロダクトマネージャーであるEbenMyersは説明しました。

ホログラムは、AV設計者が、知覚ソフトウェアが奇妙な、潜在的に危険な動作を示すエッジケースを見つけるのに役立ちます。 (出典:Edge Case Research)

Ansysとのパートナーシップ

今週初め、AnsysはEdge CaseResearchとのパートナーシップ契約を発表しました。 Ansysは、ホログラムをシミュレーションソフトウェアに統合することを計画しています。 Ansysは、この統合を、「AVを開発するための業界初の総合的なシミュレーションツールチェーン」を設計するための重要な基盤コンポーネントと見なしています。 Ansysは、2021年に最初のAVを提供することを約束したBMWと協力しています。


ANSYSとBMWは、自動運転用のシミュレーションツールチェーンを作成しています(出典:Ansys)

—吉田淳子、グローバル共同編集長、AspenCore Media、チーフインターナショナルコレスポンデント、EE Times

>>この記事はもともと姉妹サイトのEETimes:「ラベルのないデータを使用して、AIが偽物であるかどうかを確認します。」


モノのインターネットテクノロジー

  1. データをどうすればいいですか?!
  2. 産業用IoTの開発の見通し
  3. ビジュアルデータをIoTと統合する可能性
  4. IoTの民主化
  5. IoTデータの価値を最大化する
  6. 変化の時:最先端の新時代
  7. アナログ測定の価値
  8. 産業データサイエンスの成功のための準備
  9. トレンドはAIの処理をエッジに押し続けています
  10. 自動化されたワークセルのリモートサポートの価値
  11. データセンターの未来