クラウドデータレイクに対応するファイルデータの準備
クラウドデータレイク戦略は、データを大量に消費するエンタープライズIT組織がクラウドに移行する際の自然な進化です。これは、クラウドを安価なデータストレージロッカーから、データを新しい価値に活用して収益化できる場所に引き上げるからです。
2020年と2021年が急速なクラウド加速の年であった場合、2022年は、企業が非構造化ファイルデータをクラウドデータレイクに持ち込むことに真剣に取り組み始める年になります。この傾向の背後にはいくつかの理由があります。まず、組織はペタバイト単位の非構造化データを使用しています。これは、今日世界中のストレージにある64ゼタバイトのデータ(および増大するデータ)の少なくとも80%を占めています。これらのほとんどはファイルデータです。医療画像からストリーミングビデオ、電気自動車やIoT製品のセンサーデータ、そして人々があらゆる分野で協力してビジネスを行うために使用するドキュメントです。
第2に、ファイルデータは管理不能になり、保存にコストがかかります。CIOは、分析のために適切な場所にデータを配置する方法を決定できれば、洞察の潜在的な金鉱に座っていることを知っています。最後に、主要なクラウドプラットフォームは、データレイクプロジェクトをサポートするために、データ分析/ ML/AIツールと低コストのオブジェクトストレージ階層に多額の投資を行っています。
関連項目: データレイク、時系列データ、および産業分析
データレイクのクラウドへの成熟
最近実施した調査によると、データレイクを有効にすることは、セキュリティ、コスト管理、可視性とともに、IT管理者が優先している最重要目標の1つです。クラウドは、企業がCSVやログファイルなどの半構造化データを分析したいときに始まった従来のデータレイク戦略を覆しました。 2006年にHadoopが誕生し、ビッグデータの会話が広まり始めたちょうどその時に広く採用されました。それでも、Hadoopは最終的に、予想よりも遅く、高価であり、セットアップ、スケーリング、管理が複雑で、主にバッチ処理用に設計されていることが判明しました。これらの問題を解決するために、Apache Sparkが登場し、一部のワークロードでは最大100倍高速に実行され、リアルタイム分析に最適です。重要なのは、Databricksのような企業の焦点はクラウドでSparkを実行することでしたが、Hadoopは主にオンプレミスで実装されていました。
過去数年で、クラウドベースのデータレイクプラットフォームは成熟し、今やプライムタイムの準備ができています。クラウドプロバイダーのより安価なスケールアウトオブジェクトストレージは、オンプレミスでは実行できない大規模なペタバイト規模のプロジェクト向けのプラットフォームを提供します。次世代のデータレイクはApacheSpark上に構築されており、S3またはオブジェクトデータストレージをサポートし、半構造化データと非構造化データの取り込みと処理を可能にします。ファイルストレージもクラウドに移行しており、クラウドデータレイクの一部として活用する必要があるため、すべてのデータがオブジェクトストレージにあるとは限りません。
クラウドデータレイク戦略は、データを大量に消費するエンタープライズIT組織がクラウドに移行する際の自然な進化です。これは、クラウドを安価なデータストレージロッカーから、データを新しい価値に活用して収益化できる場所に引き上げるからです。
>クラウドデータレイクを飼いならす方法
クラウドデータレイクの初期段階ですが、機械学習モデルでは意味のある結果を生成するために大量のデータレイクが必要になるため、データレイクにファイルデータを含めることが不可欠です。ただし、この非構造化データはファイルタイプ間で標準化されていません。動画ファイル、音声ファイル、センサーデータ、ログは共通の構造を共有していません。そして、このすべてのファイルデータをクラウドデータレイクプラットフォームに気ままにダンプすることは賢明な戦略ではありませんが、後でクリーンアップするための混乱です。彼らの約束にもかかわらず、データレイクには多くのリスクがあり、高い管理コスト、スキルのギャップ、セキュリティとガバナンスの懸念、クラウドとストレージプラットフォーム間でデータを移動する際の移植性の問題、データレイクがデータレイクの際に沼になるという長年の懸念などがあります。大きくなりすぎて絡み合って検索や分析ができなくなります。
競合を回避または最小限に抑えるために、ファイルデータをクラウドデータレイクに取り込む際の考慮事項がいくつかあります 。
- データレイクを最適化します。 データを分析する前に、データをクレンジング、正規化、分類する必要があります。これは非常に手動のプロセスであるため、コストの超過や価値実現までの時間が遅くなります。これはデータウェアハウスイニシアチブにとって常に課題であり、同じことがデータレイクとデータレイクハウスにも当てはまります。データレイクは、ネイティブ形式でデータを取り込むことができるため、魅力的です。湖にデータを入れる前に最適化を要求すると、この使いやすさが損なわれます。ユーザーの動作を変更せずに、ファイルデータを自動的に最適化するにはどうすればよいですか?ファイルデータを最適化するための鍵は、メタデータです。ファイルタイプ、作成日と最終アクセス日、所有者、プロジェクト、場所に関する情報です。メタデータプロパティでファイルに自動的にインデックスを付けてタグを付ける機能により、データレイクを管理しないままにするのではなく、データの沼地の問題を回避し、後で検索してセグメント化するのが簡単になります。
- メタデータインデックスを使用して、特定のニーズに合った正確なデータセットを見つけます。 ストレージ(オンプレミス、エッジ、クラウドの場所を含む)全体でファイルのインデックスを作成し、メタデータを検索できるツールを使用すると、数十億のファイルを数千に絞り込むことができるため、分析したい正確なファイルのみをクラウドに送信できます。
- 検索性と使いやすさを向上させるためにデータにタグを付けます 。必要なファイルが見つかったら、機械学習システムを使用して、より多くのタグで検索をさらに絞り込むことができます。このプロセスは継続的かつ自動化されている必要があるため、時間の経過とともに追加の構造が開発され、データレイクの検索が容易になり、全体的な品質が向上します。
- エッジに対応します。 センサーデータからの新しいユースケースのためにエッジコンピューティングが成長するにつれて、エッジからのデータのストリーミングは不可能になります。エッジでより多くのデータを処理し、必要なものだけをクラウドデータレイクに取り込むにはどうすればよいでしょうか。エッジデータの量が増えるにつれて、エッジの前処理はより重要になります。
- 業界ごとに分類を作成します。 各業界に標準のタグ付けの命名法はありません。セクターごとにいくつかの一般的なタグ付け分類を使用すると、特に研究やライフサイエンスなどの共同環境で、データの検索と抽出が容易になります。
- データモビリティに対応します。 真にモバイルであるためには、データはハイブリッドクラウド環境全体のさまざまなシステムに存在できると同時に、それらの環境のサービスにネイティブにアクセスできる必要があります。独自のストレージシステムからデータのロックを解除すると、ITに制御が戻り、あるプラットフォームから次のプラットフォームにデータを移動するための料金や手間が省けます。データの使用方法とアクセス方法、およびその値は時間の経過とともに変化します。データを将来にわたって利用できるようにすることで、変更や新しい要件に適応できます。ここでは、独立したデータモビリティおよび管理ソリューションが役立ちます。
- 適切な文化を構築します。 New Vantage Partnersによる2021年の調査によると、主要なIT組織は、データ主導型の組織になるための最大の障害として、文化(人、プロセス、組織、変更管理)を引き続き特定しています。データ主導の文化は、アナリストや基幹業務だけでなく、ITインフラストラクチャチームにも及ぶ必要があります。 ITリーダーは、データストレージ、サーバー、およびネットワーキングの専門家が、データ中心の意思決定フレームワークに向けて責任と日常業務の方向を変えるのを支援する役割を果たす必要があります。ツールとプロセスは部門の枠を超えて機能し、組織のデータ資産の全体像を把握し、組織の利益のためにそれらの資産を管理するための戦略に関するコラボレーションを可能にする必要があります。
クラウドデータレイクは、データウェアハウスに必要な大規模な前処理なしでデータをネイティブ形式で取り込むことができるため、人気が高まっています。反対に、データレイクは、特に非構造化ファイルデータの場合、このデータには共通の構造がないため、データの沼地になっています。ファイルデータの分析は、それに依存するAI/MLエンジンの台頭とともにますます重要になっています。クラウドデータレイクは、ファイルデータのインデックス作成、検索、収集、最適化を自動化することで、ネイティブ形式でデータを取り込む魅力を損なうことなく、非構造化データ用に最適化できます。
モノのインターネットテクノロジー