エースの専門用語：ビッグデータ愛好家の一般的な用語

ビッグデータにはビッグワードがロードされます。一般的なデータ用語をよく理解することは、データイニシアチブを理解するだけでなく、データイニシアチブに関する会話に参加して影響を与えるのに役立ちます。 www.datamakespossible.comで、データの進化と革命に関する重要な議論をチェックしてください。

さて、始めて、以前に聞いたいくつかの用語をわかりやすく説明し、まったく新しい可能性のあるいくつかの用語を紹介しましょう。

データサイエンティスト

科学、ビジネス、芸術の同等の部分を組み合わせたデータサイエンティストは、アルゴリズム、ツール、プロセスの知識を使用して、データから価値を引き出します。データサイエンティストは、データセットをマイニング、グループ化、または分析するために、機械学習または人工知能を実行することがよくあります。

不均一分散と不均一分散のデータ

ヘテロ何？これはあなたにとって新しい用語かもしれないので、これが何を意味するかについての非常に基本的な例を見ていきましょう。

一部のデータは 一定です そして決して変わらない。昨日のウェブログは一定です。私たちがタイムトラベルを発明するまで、あなたは戻って誰かが昨日したことを変えることはできません。

データの次のレベルの複雑さは 線形です 。キューまたはボイスメールは、直線的な成長の例です。 1人のワーカーが1時間に10個のメッセージを処理できる場合、1時間に50個のメッセージを処理するには5人のワーカーが必要になります。 二次方程式で増加するデータファッションは4倍（またはそれ以上）の速度で成長します。この例として、ソーシャルメディアがあります。あなたが投稿を書くとき、4、10、100、あるいは何百万もの人々がそれを読むかもしれません。それらの人々はあなたの投稿を共有したり、コメントしたり、あるいは毎秒変化するメタデータを生成したりするかもしれません。ここから、不均一分散になり始めます。これは、高速（移動と変化が速い）と変動性の高さ（つまり、投稿のコメント、共有、いいね、または応答の速度を簡単に予測する方法がない）によって定義されます。

もう1つの優れた例えは料理です。食事を作るときは、さまざまな方法で食材を組み合わせて、（願わくば）おいしいものを作ろうとしています。料理をしようとした人なら誰でも知っているように、少量の塩を加える、2分間調理する、長すぎる、または小さすぎるトマトを切るなど、いくつもの小さな変更が結果と最終レシピの収束に大きな影響を与える可能性があります。その特製料理のために。

これまでこの用語を使用したことがない場合でも、不均一分散は、産業用IoTワークロードでますます遭遇するものです。これは、高速データ（ストリーミングなど）を処理する場合、またはGoogleウェブクローラーが通過するHTMLページなどの構造化されていない急速に変化するデータを処理する場合に特に当てはまります。

機械学習

Machine Learning（ML）は、コンピューターサイエンスの分野であり、データモデルの厳密なトレーニングを通じて、コンピューターが生データからパターンを認識して抽出できるようにします。

MLは、「ビッグデータの3つのC」（分類、クラスタリング、協調フィルタリング）を可能にします。

分類とは、新しいパターンがそのパターンを含むデータのトレーニングセットに属するカテゴリ/サブカテゴリまたは母集団/サブ母集団のセット、またはカテゴリがすでに識別されているインスタンスを識別する問題です。と知られています。たとえば、分類には、一連のMRIスキャンで腫瘍を認識するようにアルゴリズムをトレーニングしてから、腫瘍がある他のスキャンを識別するようにアルゴリズムに要求することが含まれる場合があります。

クラスタリングには、生データポイントをセットまたは「クラスター」にグループ化することが含まれます。ここでの例は、リアルタイムでWebログ上で実行されるMLアルゴリズムであり、有効なトラフィックを1つのカテゴリに（許可するために）グループ化し、攻撃の可能性を別のカテゴリに（ブロックするために）グループ化します。

協調フィルタリングは、「推奨事項」を表すための単なる空想の言葉です。例としては、相互にある程度の親和性を示す製品を特定して表示することがあります。

MLで行うことの多くは、「浅い学習」と呼ばれます。ディープラーニングは通常、真の人工知能のコンポーネントです。

人工知能

人工知能（AI）は、コンピューターに詳細な認知分析を実行する機能を提供することにより、MLを包含および拡張します。

MLは通常、アルゴリズムの作成、調整、またはトレーニング（腫瘍のスキャンをコンピューターに供給するなど）の方法で何らかの初期の人間の介入を伴いますが、AIを使用すると、コンピューターは選択、調整、および特定の機能を実行するように自分自身をトレーニングします。最終的に、AIはディープラーニングを使用して、人間の意思決定と学習プロセスをエミュレートします。

気づかないかもしれませんが、AIはおそらく日常生活の一部です。これについては、以下のNLP定義で詳しく説明します。

バーチャルリアリティ

バーチャルリアリティ（VR）を使用すると、ユーザーは、物理的な環境とはまったく異なる外観と音の仮想世界に足を踏み入れることができます。

VRは、仮想ジェットコースターのようなエンターテインメント体験を可能にしますが、重要な商用アプリケーションもあります。 VRには通常、デジタルディスプレイヘッドセットが必要です。

拡張現実

拡張現実（AR）は、デジタルアーティファクトを現実世界の上にオーバーレイして、相互作用を可能にするよう努めています。最近、ARはゲームプレイアプリの人気で広く成功しています。

自然言語処理

自然言語処理（NLP）を使用すると、コンピューターは、書かれたまたは話された人間の言語を解析および理解できます。電話や自宅に話しかける場合は、おそらくNLPを経験したことがあるでしょう。

NLPは、深い学習と浅い学習の違いを説明するのに最適な場所です。第一世代のNLP（浅い学習）は、文をトークン（単語）に分割し、トークンにいくつかのルールを適用することに焦点を当てていました。ただし、今日のディープラーニングNLPは、ステートメントのコンテキスト全体を調べて、真の意味を推論します。

書面によるウェブレビューを想像してみてください。浅い学習では、「レビュー評価スターの数」や基本的な「感情分析」などの限られた数のデータトークンを単純に調べます。これには、肯定的な単語と否定的な単語の数を数えることが含まれる場合があります。これらのデータポイントは、レビューが肯定的か否定的かについての結論に到達するために、しばしば脆弱な一連のルールを介して供給されます。

ディープラーニングエンジンは、この分析により多くのインテリジェンスを適用します。これは、人間が同じレビューを読んだ場合に推測するものとほぼ同じです。たとえば、レビューに5つ星の評価、良い正と負のカウント比などの「肯定的な」ものがたくさんある場合、浅いNLPエンジンはそれが肯定的なレビューであると結論付ける可能性があります。ただし、深層学習のNLPエンジンは、「この製品を二度と購入しない」と読んだときに、レビューが実際には否定的であると（人間のように）解釈する可能性があります。その文だけで、ユーザーが提供した可能性のある肯定的な感情を否定します。

画像認識

画像認識により、コンピューターは単純な視覚的画像から意味を推測することができます。多くの場合、プロバイダーのMLまたはAIオファリングに（NLPとともに）バンドルされています。

画像認識により、コンピューターは光学式文字認識またはOCR（看板のテキスト）を使用して書記言語などのオブジェクトを識別し、オブジェクトにタグを付けることができます（「山」、「木」、「車」、「超高層ビル」など）顔の分析も実行します（顔の周りに境界ボックスを描画するなど）。

現在、自動車業界では、疲労感のあるドライバーを検出して警告するための顔分析を適用することで、画像認識がまったく新しいレベルに引き上げられています。

構造化、非構造化、半構造化データ

歴史的に、私たちが扱ったデータの多くは高度に構造化されていました。これは、（データベースのように）行/列の形式にうまく適合することを意味します。その結果、多くのコンピュータシステムは、その形式のデータを取り込んで生成するように設計されていました。

人間は別の獣です。自由に流れるテキスト、音声、カメラのスナップショットなどの画像などの非構造化データの生成と消費に優れています。このデータはすべて、本質的に「構造」を持っていません。特定の言語、単語、イントネーションなどに「依存」することはできません。

半構造化データは中央のどこかにあります。良い例はメールです。「subject」、「to」、「from」、「date」などの構造がありますが、メインのペイロードは、電子メールの「本文」にある非構造化テキストのブロブです。

過去10年間で、私たちのコンピューターシステムは、非構造化データの分析を実行するのに十分なほど強力になりました。

データレイク

Hadoopなどの分析エンジンは、多くの場合、緊密に結合された配置でストレージとコンピューティングの両方を提供します。処理を追加するたびに、本質的にストレージが追加されます。

ただし、多くの組織は、永続的に保持したいがすぐには分析したくない大量のデータ（ペタバイト）に座っています。遅延の理由の1つは、分析前にデータの前処理とクレンジングが必要になる可能性があることです。

データレイクは、限られたコンピューティングで、低コストで耐久性が高く、どこからでもアクセスできるストレージを提供します。これにより、一度に処理されるデータよりもはるかに多くのデータを保持できます。

レシピのパラダイムを見ると、データレイクは原材料（野菜、米、ブイヨン）のパントリーのようなものです。あなたが料理したいときだけ、あなたはレシピに従って材料の正しいサブセットを引き出して、その食事のためにそれらを準備しますか？

データベース

一般に「データベース」と呼ばれるものは、リレーショナルデータベース管理システム（RDBMS）またはOLTP（オンライントランザクション処理）システムとも呼ばれます。 Oracle、MySQL、SQLServerはすべてこの一般的な例です。

エンドユーザーからの（通常）多くの小さな「トランザクション」がRDBMSを特徴づけます。

小売eコマースウェブサイトを考えてみてください。いつでも、数十万人のユーザーが製品の閲覧、レビューの読み取り、注文の生成などの際に小さな読み取り（クエリ）と書き込み（挿入）を実行しています。これらのシステムはこれらのクエリを非常に迅速に実行することが期待されています。

データウェアハウス

データウェアハウス（エンタープライズデータウェアハウスまたはEDWとも呼ばれます）は、企業が分析を実行していくつかの重要なビジネス上の質問に答える場所です。私たちの最も急成長している製品ラインは何ですか？どの製品カテゴリが最高のROIを持っていますか？パフォーマンスが最も悪い地域、カテゴリ、営業担当者などは何ですか？

EDWは通常、少数の（おそらく数十または数十の）内部ユーザーによってのみ使用され、大規模な（おそらく数百TBまたは数十のPB）データセットに対して長時間実行されるクエリを実行します。

視覚化

視覚化ツールは、複雑な分析を行うための視覚的なフロントエンドを提供します。

簡単なドラッグアンドドロップを使用すると、熟練していないインターンでも、四半期ごとの売上、ベストセラー製品、成長などの複雑なレポートを大量に作成できます。

これらのシステムでは通常、接続するエンジンにSQLインターフェイスが必要です。SQLインターフェイスは（偶然ではありませんが）すべてのRDBMSとEDWが提供します。多くのデータアナリストのように、システムとのやり取りの95％は、これらの視覚化ツールのいずれかを介して行われます。

ビッグデータに見られる一般的な用語のこのクイックウォークスルーを楽しんでいただけたでしょうか。前例のないデータ増加の視覚化、データレイクを作成することの利点、MLとAIを介した価値のあるヘテロスケダスティックデータのロック解除が世界を完全に変えていることについて話し合うことで、ウォータークーラーの人々に今すぐ感動を与えてください。データが世界に与える影響について知りたいですか？専門用語を話したら、datamakespossible.comのディスカッションに参加してください。

この記事は、WesternDigitalと共同で作成されました。

著者はWestern Digitalのフェロー兼チーフデータサイエンティストであり、高度な分析と半導体製造とのパターンマッチングを使用して、ビッグデータプラットフォーム、製品、テクノロジーの形成、推進、実装を行っています。会社のデータ。

インダストリー4.0–IIoTエコシステムを正しい方法で構築する企業のイノベーションセンターが企業を競争力のあるものにする方法

モノのインターネットテクノロジー