現代のデータエステート:データレイクとデータウェアハウス
2021年7月27日
出典:MCA Connect |明日の製造
データは、さまざまな形で迅速に届きます。これらのさまざまな形式には、構造化データ、半構造化データ、非構造化データが含まれる可能性があり、多くの人は、データウェアハウスとデータレイクがデータを異なる方法で処理することに気づいていません。
最新のデータエステートは、企業が生成するさまざまなデータを取り込んで保存するための複数の方法を提供する必要があります。データは迅速かつさまざまな形で私たちに届きます。これらのさまざまな形式には、構造化データ、半構造化データ、および非構造化データが含まれる可能性があり、多くの人々は、データウェアハウスとデータレイクがデータを異なる方法で処理することに気づいていません。これらのさまざまなタイプのデータをさらに見てみましょう:
- 構造化–正式な列とテーブルの定義を備えたERPまたはCRMシステムのトランザクションデータベースなどの従来のデータベース
- 半構造化–要素と階層のタグを使用して自己記述型のXMLやJSONなどのファイル
- 非構造化–画像、動画、音声、その他のバイナリデータ
従来のデータウェアハウスの設計は何十年も前から存在していますが、データレイクの概念、または少なくとも用語は、やや新しい構造です。これらはそれぞれ、組織のデータ資産に含まれています。
データウェアハウス
上で見ることができるように、データソースは非常に多様であり、異なるデータ表現を持っている可能性があり、それは異なる情報につながる可能性があります。さらに、データソースのスキーマと構造は多種多様であるため、すべてのビジネスサブシステムからデータの完全なスナップショットが必要な場合、統合された情報を取得することは困難です。一般に、これがデータウェアハウスソリューションの出現の主な理由です。
データウェアハウスは正式な設計であり、多くの場合、正式なETL(Extract-Transform-Load)プロセスを実装して、生の構造化データセットを消費し、レポート用に設計されたモデルにロードする設計ガイドラインに基づいています。データウェアハウスは、以前はMicrosoft SQLServerであったAzureSynapseなどのリレーショナルデータベース上に構築されています。 Azure Synapseは、構造化データを従来の行と列のテーブルに格納するように設計されていますが、XMLやJSONなどの半構造化データを格納する機能があります。
データレイク
データレイクは、ETLの概念を覆し、ELT(Extract-Load-Transform)プロセスを実装します。データレイクにデータを取り込むことは、基本的に、データの種類や構造に関係なく、ある時点で価値があると思われるすべてのものを大容量のストレージ領域に投入することです。データレイクは、構造化データ、半構造化データ、および非構造化データを格納できます。 Microsoft Azureで提供されるデータレイクは、ストレージアカウントの作成時にData Lake StorageGen2が有効になっているストレージアカウントに基づいて構築されています。
データレイクの背後にある考え方は、すべてのデータを消費し、後でデータを分類することです。データウェアハウスでは、取り込みを開発するために多額の投資を行い、価値を事前に特定する必要があります。データウェアハウスの開発には通常、多額の先行投資が必要となるため、最初に持ち込まれなかったデータが必要であると後で判断された場合、ソースデータが利用できなくなり、永久に失われる可能性があります。
目的:未定vs使用中
データレイク内の個々のデータの目的は固定されていません。生データはデータレイクに流れ込みます。特定の将来の使用を念頭に置いて、場合によっては手元に置いておくだけです。これは、データレイクの編成が少なく、データのフィルタリングが対応するものよりも少ないことを意味します。
処理されたデータは、特定の用途に使用された生データです。データウェアハウスは処理されたデータのみを格納するため、データウェアハウス内のすべてのデータは組織内の特定の目的に使用されています。これは、決して使用されない可能性のあるデータにストレージスペースが無駄にならないことを意味します。
アクセシビリティ
アクセシビリティと使いやすさは、データリポジトリ内のデータではなく、データリポジトリ全体の使用を指します。データレイクアーキテクチャには構造がないため、アクセスと変更が簡単です。さらに、データレイクには制限がほとんどないため、データに加えられた変更をすばやく行うことができます。
データウェアハウスは、設計上、より構造化されています。データウェアハウスアーキテクチャの主な利点の1つは、データの処理と構造によってデータ自体の解読が容易になることです。構造の制限により、データウェアハウスの操作が困難でコストがかかります。
両方のメリット
データレイクは、多くのソースからの大量のデータを保存するための費用効果の高い方法です。データが特定のパターンに適合する必要がないため、データはより柔軟でスケーラブルであるため、任意の構造のデータを許可するとコストが削減されます。ただし、構造化データはよりクリーンで、クエリ元のスキーマが統一されているため、分析が容易です。データをスキーマに制限することにより、データウェアハウスは、特定のデータ決定のために履歴データを分析するのに非常に効率的です。適切なデータウェアハウスとデータレイクの両方が、組織の将来の成功にとって重要であり、最新のデータ資産に属しています。
データエステートとは何ですか?
最新のデータ資産を確立することは、デジタルトランスフォーメーションに向けた基本的なステップです。最新のデータエステートは、すべてのデータにわたるタイムリーな洞察と意思決定を可能にし、AIの基盤を確立します。データエステートは、組織が所有するすべてのデータです。このデータをクラウドに移行したり、オンプレミスの環境を最新化したりすると、イノベーションを促進するための重要な洞察を得ることができます。
Microsoft Dynamics 365のビルド済みデータウェアハウス、DataCONNECT
データウェアハウスの構築は、ソースシステムを適切にレビューし、データモデルを設計し、それを処理するために必要なETLを作成するために、非常に費用と時間がかかる可能性があります。 MCA Connectは、Microsoft Dynamics AX、Dynamics 365 Finance、およびCustomerEngagement向けのDataCONNECTデータウェアハウスソリューションを開発しました。このソリューションは、実装コストを削減しながら、包括的なデータウェアハウスソリューションの提供のタイムラインを大幅に短縮します。また、包括的なデータ資産の構築を開始するための優れた方法でもあります。
DataCONNECTは、組織に高速で正確な情報を提供し、操作を正確に予測、適応、および形成する機能を提供します。検証済みのデータを予測モデルにすばやく取り込むことができるため、ビジネスの領域の計画サイクルを開始できます。 DataCONNECTデータウェアハウスまたはデータレイクがビッグデータの保存にどのように役立つかについて詳しく知りたい場合は、お問い合わせください。専門家の1人が喜んで正しい方向にご案内します。
この記事の内容と意見は著者のものであり、必ずしも明日の製造業の見解を表すものではありません。
産業技術