スマートデータ:IoTの次のフロンティア
今日よりもデータの収集が簡単になりました。数回クリックするだけで、クラウドが提供するすべての最高のデータテクノロジーを備え、可能な限りすべてのデータを蓄積する準備が整います。ほんの10年前、物事が劇的に異なっていたとは信じがたいかもしれません。実際、大規模なデータ収集は、すべてのデータを保存するための唯一の実行可能なオプションである高価なサーバーと、最大限に活用できる少数のエンジニアの両方を購入できる大企業、組織にとっての唯一のオプションでした。そのうち、データサイエンスが単なる新進の分野であった時代にさかのぼります。
今日、幸いなことに、データの生成はもはや単なる企業スポーツではありません。実際、モノのインターネット(IoT)のおかげで、私たちは皆、良くも悪くも、小さなビッグデータ工場になりました。 2020年までに、1人の人間が1秒あたり1.7MBのデータの生成を担当するようになります。現在でも、1台の自動運転車が1日あたり11TBのデータを生成します。そして、この傾向は衰える兆しを見せていません。それどころか、それは成長するだけです。
これは、そこにいるすべてのデータ愛好家にとって明らかに素晴らしいニュースです。高品質のデータセットを収集することが面倒で骨の折れる作業だったのはそれほど昔のことではありません。それでも、私たちは常にもっと欲しいです。まったく新しいディープラーニングモデルが92%の精度に「しか」到達していないように思われる場合、最も簡単ですぐに使える言い訳はデータを非難することです。 「私のデータセットは十分な大きさではありません」と、私たちは上司にさりげなく話します。 「しかし、あと数週間待つと、このモデルはこれまでに見た中で最高のものになります!」
これは重要な質問を提起するようです:実際にはどのくらいのデータで十分ですか?しかし、実際にはさらに重要な問題があります。データ量が多すぎる ?
興味深いことに、機械学習の分野では、本当にそうすべきだとしても、この質問を頻繁に聞くことはありません。ビッグデータは大きなチャンスですが、40ゼタバイトの巨大な責任でもあります。データが実際に新しい石油である場合、類推を限界まで押し上げる必要があります。データは非常に有益なリソースですが、石油と同様に、精製する必要があります。制御されていない使用から自分自身を抑制できないことは、私たちを危険にさらしています。要するに、今日のデータの使用と検討の方法は非常に持続不可能であり、この事実はまだ集合意識にほとんど到達していません。
たぶん、たぶん、これは間違った会話です。結局のところ、ビッグデータは実際にはAIへの答えではないかもしれません。
少し戻って、私たちが実際に収集しているものについて考えてみましょう。デジタル化の初期の頃は、データ収集は確かにコストがかかっていたので、私たちは自分たちのスポットを選びました。私たちはより責任があり、もう少し良心的でした。データの生成と収集がますます容易になるにつれて、品質への注意が払われなくなり、量はクラウドストレージ、クラウドコンピューティング、GPUマシン、大規模なデータ管理、転送システムなどの新しいテクノロジーの自然な副産物になりました。すぐにデータはコモディティになりましたが、データとデータストレージのエスカレーションが続く中、誰も簡単な質問をしませんでした。なぜこれを収集するのでしょうか。それも意味がありますか?
モデル構築のコモディティ化により、データモートは確かに、AIの差別化に対する明白な答えのように見えるかもしれませんが、私たち全員が全体像を見逃したのでしょうか。データの古さ。古くなります。そして最終的には、データと情報は2つの大きく異なるものであると信じ込まれたとしても、すべてのデータが ではありません。 等しく作成されました。 Instagramに投稿する前に自分撮りを20枚撮っているティーンエイジャーは、検索可能な医学文献のカタログとは確かに異なります。
ハードウェアの進歩がデータの黙示録から私たちを安全に保つという信念に固執する限り、これは問題のようには見えません。データストレージは日ごとにますます安くなっており、その計算能力はますますアクセス可能になっています。これは、データの生成がムーアの法則に追いつくエンジニアの能力によって相殺される場合にのみ当てはまります。彼らがそれを無期限に行うことができるとしても、これを考慮してください:すべてのデータが等しく情報であるとは限らない場合、標準以下または冗長なデータを処理することのポイントは何ですか?
モノのインターネットテクノロジー