エースの専門用語:ビッグデータ愛好家の一般的な用語
さて、始めて、以前に聞いたいくつかの用語をわかりやすく説明し、まったく新しい可能性のあるいくつかの用語を紹介しましょう。
データサイエンティスト
科学、ビジネス、芸術の同等の部分を組み合わせたデータサイエンティストは、アルゴリズム、ツール、プロセスの知識を使用して、データから価値を引き出します。データサイエンティストは、データセットをマイニング、グループ化、または分析するために、機械学習または人工知能を実行することがよくあります。
不均一分散と不均一分散のデータ
これまでこの用語を使用したことがない場合でも、不均一分散は、産業用IoTワークロードでますます遭遇するものです。これは、高速データ(ストリーミングなど)を処理する場合、またはGoogleウェブクローラーが通過するHTMLページなどの構造化されていない急速に変化するデータを処理する場合に特に当てはまります。

機械学習
Machine Learning(ML)は、コンピューターサイエンスの分野であり、データモデルの厳密なトレーニングを通じて、コンピューターが生データからパターンを認識して抽出できるようにします。
MLは、「ビッグデータの3つのC」(分類、クラスタリング、協調フィルタリング)を可能にします。
分類とは、新しいパターンがそのパターンを含むデータのトレーニングセットに属するカテゴリ/サブカテゴリまたは母集団/サブ母集団のセット、またはカテゴリがすでに識別されているインスタンスを識別する問題です。と知られています。たとえば、分類には、一連のMRIスキャンで腫瘍を認識するようにアルゴリズムをトレーニングしてから、腫瘍がある他のスキャンを識別するようにアルゴリズムに要求することが含まれる場合があります。
クラスタリングには、生データポイントをセットまたは「クラスター」にグループ化することが含まれます。ここでの例は、リアルタイムでWebログ上で実行されるMLアルゴリズムであり、有効なトラフィックを1つのカテゴリに(許可するために)グループ化し、攻撃の可能性を別のカテゴリに(ブロックするために)グループ化します。
MLで行うことの多くは、「浅い学習」と呼ばれます。ディープラーニングは通常、真の人工知能のコンポーネントです。
人工知能
人工知能(AI)は、コンピューターに詳細な認知分析を実行する機能を提供することにより、MLを包含および拡張します。
MLは通常、アルゴリズムの作成、調整、またはトレーニング(腫瘍のスキャンをコンピューターに供給するなど)の方法で何らかの初期の人間の介入を伴いますが、AIを使用すると、コンピューターは選択、調整、および特定の機能を実行するように自分自身をトレーニングします。最終的に、AIはディープラーニングを使用して、人間の意思決定と学習プロセスをエミュレートします。
気づかないかもしれませんが、AIはおそらく日常生活の一部です。これについては、以下のNLP定義で詳しく説明します。
バーチャルリアリティ
VRは、仮想ジェットコースターのようなエンターテインメント体験を可能にしますが、重要な商用アプリケーションもあります。 VRには通常、デジタルディスプレイヘッドセットが必要です。
拡張現実
拡張現実(AR)は、デジタルアーティファクトを現実世界の上にオーバーレイして、相互作用を可能にするよう努めています。最近、ARはゲームプレイアプリの人気で広く成功しています。
自然言語処理
自然言語処理(NLP)を使用すると、コンピューターは、書かれたまたは話された人間の言語を解析および理解できます。電話や自宅に話しかける場合は、おそらくNLPを経験したことがあるでしょう。
NLPは、深い学習と浅い学習の違いを説明するのに最適な場所です。第一世代のNLP(浅い学習)は、文をトークン(単語)に分割し、トークンにいくつかのルールを適用することに焦点を当てていました。ただし、今日のディープラーニングNLPは、ステートメントのコンテキスト全体を調べて、真の意味を推論します。
ディープラーニングエンジンは、この分析により多くのインテリジェンスを適用します。これは、人間が同じレビューを読んだ場合に推測するものとほぼ同じです。たとえば、レビューに5つ星の評価、良い正と負のカウント比などの「肯定的な」ものがたくさんある場合、浅いNLPエンジンはそれが肯定的なレビューであると結論付ける可能性があります。ただし、深層学習のNLPエンジンは、「この製品を二度と購入しない」と読んだときに、レビューが実際には否定的であると(人間のように)解釈する可能性があります。その文だけで、ユーザーが提供した可能性のある肯定的な感情を否定します。
画像認識
画像認識により、コンピューターは単純な視覚的画像から意味を推測することができます。多くの場合、プロバイダーのMLまたはAIオファリングに(NLPとともに)バンドルされています。
画像認識により、コンピューターは光学式文字認識またはOCR(看板のテキスト)を使用して書記言語などのオブジェクトを識別し、オブジェクトにタグを付けることができます(「山」、「木」、「車」、「超高層ビル」など)顔の分析も実行します(顔の周りに境界ボックスを描画するなど)。
現在、自動車業界では、疲労感のあるドライバーを検出して警告するための顔分析を適用することで、画像認識がまったく新しいレベルに引き上げられています。
構造化、非構造化、半構造化データ
歴史的に、私たちが扱ったデータの多くは高度に構造化されていました。これは、(データベースのように)行/列の形式にうまく適合することを意味します。その結果、多くのコンピュータシステムは、その形式のデータを取り込んで生成するように設計されていました。
データレイク
Hadoopなどの分析エンジンは、多くの場合、緊密に結合された配置でストレージとコンピューティングの両方を提供します。処理を追加するたびに、本質的にストレージが追加されます。
ただし、多くの組織は、永続的に保持したいがすぐには分析したくない大量のデータ(ペタバイト)に座っています。遅延の理由の1つは、分析前にデータの前処理とクレンジングが必要になる可能性があることです。
データレイクは、限られたコンピューティングで、低コストで耐久性が高く、どこからでもアクセスできるストレージを提供します。これにより、一度に処理されるデータよりもはるかに多くのデータを保持できます。
レシピのパラダイムを見ると、データレイクは原材料(野菜、米、ブイヨン)のパントリーのようなものです。あなたが料理したいときだけ、あなたはレシピに従って材料の正しいサブセットを引き出して、その食事のためにそれらを準備しますか?
データベース
一般に「データベース」と呼ばれるものは、リレーショナルデータベース管理システム(RDBMS)またはOLTP(オンライントランザクション処理)システムとも呼ばれます。 Oracle、MySQL、SQLServerはすべてこの一般的な例です。
データウェアハウス
EDWは通常、少数の(おそらく数十または数十の)内部ユーザーによってのみ使用され、大規模な(おそらく数百TBまたは数十のPB)データセットに対して長時間実行されるクエリを実行します。
視覚化
視覚化ツールは、複雑な分析を行うための視覚的なフロントエンドを提供します。
簡単なドラッグアンドドロップを使用すると、熟練していないインターンでも、四半期ごとの売上、ベストセラー製品、成長などの複雑なレポートを大量に作成できます。
これらのシステムでは通常、接続するエンジンにSQLインターフェイスが必要です。SQLインターフェイスは(偶然ではありませんが)すべてのRDBMSとEDWが提供します。多くのデータアナリストのように、システムとのやり取りの95%は、これらの視覚化ツールのいずれかを介して行われます。
この記事は、WesternDigitalと共同で作成されました。
著者はWestern Digitalのフェロー兼チーフデータサイエンティストであり、高度な分析と半導体製造とのパターンマッチングを使用して、ビッグデータプラットフォーム、製品、テクノロジーの形成、推進、実装を行っています。会社のデータ。
モノのインターネットテクノロジー