2022年以降のデータ統合の未来
スクリプトの手動作成、データのスクラブ、後でデータウェアハウスまたはETLへのロード(extract-transform-load)などの従来の方法を使用して、さまざまなソースからのデータを統合しました。これらの方法は、リソースの制約の時代に採用され、今では非常に時間と費用がかかり、エラーが発生しやすくなっています、と Yash Mehta 、IoTおよびビッグデータサイエンスのスペシャリスト。
ソースとターゲットが同じスキーマ、フォーマット、またはタイプを使用していない可能性があるため、データのサニタイズには膨大な時間が必要です。したがって、これらの方法は高価であり、熟練した人的資源を必要とします。世界のエンタープライズデータ統合の市場規模は、2020年の2億3,080万米ドル(1982.70百万ユーロ)から2027年までに3億8,434万米ドル(3億3,123万ユーロ)に達し、2021年から2027年のCAGRは7.1%になると予想されています。
グローバルエンタープライズデータ統合市場レポートを読んで、データ統合市場の成長の推進要因を理解してください。
はじめに
データ統合を説明するために、それは異なるソースからのデータを結合し、結合されたデータの統一されたビューを提供するプロセスです。このプロセスにより、単一のインターフェースですべてのデータを処理および操作し、(統計を使用して)分析を実行できます。ビジネスプロセスで利用できる新しい集中型テクノロジーシステムにより、データのソースとタイプは増え続けているため、データの品質を維持するのに役立つデータ統合の方法とツールを理解することがますます重要になっています。
データ統合の重要性
組織がさまざまなアプリケーションにさまざまな情報を保存している場合、データ統合は急進的です。
データ統合が解決に役立ついくつかの問題について説明しましょう:
- データサイロ
データサイロは、その名前が示すように、分離されたデータのリポジトリです。ビジネスに関しては、さまざまな情報が特定のビジネスユニットまたは部門によって管理されており、組織全体で利用できないことを意味します。情報の保存に使用されるソフトウェアに互換性がない場合も、組織はこの問題に直面します。
さまざまなソースに保存されている情報をまとめて、そこから定性的な推論を引き出すことは、組織にとって困難な課題になります。
- 遅い分析
データアナリストとリーダーは、今日の意思決定において信頼できるデータに大きく依存しており、その優れたデータを統合して分析するにはかなりの時間がかかります。今日、企業はあらゆるビジネス価値を実現するためにリアルタイムのデータ分析を必要としています。したがって、データを統合するには、信頼性が高く進化したシステムが必要です。
- 全体像
データがさまざまなプラットフォーム、ソース、またはアプリケーションに分散している場合、データの全体像を把握することは困難です。たとえば、さまざまなCRMデバイスまたはアプリケーションからの組織の顧客データはオフラインストアとオンラインストアで異なる可能性がありますが、組織のデータチームは、そのデータを顧客の情報と地理的情報にマッピングして、売上を拡大するための詳細な分析を行いたいと考えています。この情報の相関関係は重要であり、すべてのCRMプラットフォームを統合する必要があります。そうしないと、このデータを手動で統合するためにかなりの時間と労力が必要になります。
データ統合の方法とツール
ビジネスの苦労はデータの不足ではなく、データ量とそのタイムリーな分析です。さまざまなクラウドアプリケーションから組織や業界全体のIoTエンドポイントに流れる大量のデータにより、データをタイムリーに分析する作業は非常に困難になります。
ソースシステムからターゲットシステムにデータを接続してルーティングするプロセスは、さまざまなデータ統合手法(通常の従来の方法または最新の方法)によって実現されます。
- 従来の方法
従来の方法は通常バッチ処理されており、データアナリストにリアルタイムのデータ分析を実行する機会を提供しません。
- 最新の方法
最新のデータ統合手法は、データの俊敏性に合わせて進化し、絶えず変化するデータ統合のニーズに適応するように構築されました。成功している最新のアプローチには、自動ELT(extract-load-transform)とクラウドベースのデータ統合があります。
- ELT 基本的に、変換ステップをデータパイプラインの最後にシフトします。データパイプラインでは、データを変換する前にデータを読み込むことができます。このように、データウェアハウスは信頼できる唯一の情報源のままです。したがって、変換の実行中に、ウェアハウス化されたデータの整合性が損なわれることはありませんでした。
- クラウドベースのデータ統合 企業がさまざまなソース(クラウドアプリケーションとオンプレミスシステム)からのデータを通常(常にではありませんが)クラウドベースのデータウェアハウスに結合するのに役立ちます。このデータの統合により、運用効率が向上し、企業の内部コミュニケーションが向上します。 Software as a Service(SaaS)ソリューションとオンプレミスアプリケーションのハイブリッドミックスを使用して運用する企業が増えるにつれ、専門家は、企業の90%以上がクラウドベースのデータ統合に傾倒することを示しています。このような統合により、データとプロセスのリアルタイム交換が可能になります。統合されたデータには、ネットワーク経由またはインターネット経由で複数のデバイスからアクセスできます。一般的なクラウドベースのデータ統合プラットフォームには、 K2View があります。 データ統合、Informaticaクラウドデータ統合、 Amazon Redshift、スノーフレークなど。
最新のデータ統合の開始
最新のデータ統合アプローチでは、データセットを管理およびスクラブし、後でデータを個々のデータウェアハウス環境にロードするという手動の作業は廃止されました。これで、クラウドベースのデータ統合プラットフォームから、必要なときに必要なデータを保存、ストリーミング、および配信できます。たとえば、K2Viewデータ統合は、さまざまなソースからのデータを任意のテクノロジーまたは形式で管理し、ビジネスエンティティ(顧客、場所、デバイス、製品など)のデータフィールドをモデル化するデータ統合プラットフォームです。次に、このデータはマイクロデータベースに取り込まれます。その後、データマスキング、変換(メモリ内データベースを使用して高速でデータ変換を実行)、エンリッチメントなどの他のデータ処理ステップが実行されます。最後に、この統合データは消費アプリケーションに送信されます。
結論
データ統合の世界では、最新のデータ統合アプローチは、エンジニアリングコストの削減やデータの充実から、洞察までの時間の短縮や変化への適応性の向上まで、多くのメリットをもたらします。
著者は、IoTおよびビッグデータサイエンスのスペシャリストであるYashMehtaです。
モノのインターネットテクノロジー