工業製造
産業用モノのインターネット | 工業材料 | 機器のメンテナンスと修理 | 産業プログラミング |
home  MfgRobots >> 工業製造 >  >> Industrial Internet of Things >> クラウドコンピューティング

Hadoop とは? Hadoop ビッグデータ処理

ビッグデータの進化は、新しいソリューションを必要とする新しい課題を生み出しました。史上かつてないほど、サーバーは膨大な量のデータをリアルタイムで処理、並べ替え、保存する必要があります。

この課題により、大規模なデータセットを簡単に処理できる Apache Hadoop などの新しいプラットフォームが出現しました。

この記事では、Hadoop とは何か、その主なコンポーネントは何か、Apache Hadoop がビッグ データの処理にどのように役立つかについて説明します。

Hadoop とは

Apache Hadoop ソフトウェア ライブラリは、分散コンピューティング環境でビッグデータを効率的に管理および処理できるオープンソース フレームワークです。

Apache Hadoop は 4 つのメイン モジュールで構成されています :

Hadoop 分散ファイル システム (HDFS)

データは、Hadoop の分散ファイル システムに存在します。これは、一般的なコンピューターのローカル ファイル システムに似ています。 HDFS は、従来のファイル システムと比較して、より優れたデータ スループットを提供します。

さらに、HDFS は優れたスケーラビリティを提供します。 1 台のマシンから数千台のマシンまで、コモディティ ハードウェアで簡単に拡張できます。

さらに別のリソース ネゴシエーター (YARN)

YARN は、スケジュールされたタスク、クラスター ノードおよびその他のリソース全体の管理と監視を容易にします。

MapReduce

Hadoop MapReduce モジュールは、プログラムが並列データ計算を実行するのに役立ちます。 MapReduce の Map タスクは、入力データをキーと値のペアに変換します。 Reduce タスクは、入力を消費して集計し、結果を生成します。

Hadoop 共通

Hadoop Common は、すべてのモジュールで標準の Java ライブラリを使用します。

Hadoop が開発された理由

World Wide Web は過去 10 年間で指数関数的に成長し、現在では数十億のページで構成されています。膨大な量のため、オンラインで情報を検索することは困難になりました。このデータはビッグデータになり、次の 2 つの主な問題で構成されています。

<オール>
  • このすべてのデータを効率的かつ簡単に取得できる方法で保存することの難しさ
  • 保存されたデータの処理の難しさ
  • 開発者は、上記の問題に対処することで、Web 検索結果をより迅速かつ効率的に返すために、多くのオープンソース プロジェクトに取り組んできました。彼らの解決策は、サーバーのクラスター全体にデータと計算を分散させて同時処理を実現することでした。

    最終的に、Hadoop はこれらの問題の解決策となり、サーバー導入コストの削減など、他の多くの利点をもたらしました。

    Hadoop ビッグデータ処理のしくみ

    Hadoop を使用して、クラスターのストレージと処理能力を活用し、ビッグデータの分散処理を実装します。基本的に、Hadoop はビッグデータを処理する他のアプリケーションを構築するための基盤を提供します。

    さまざまな形式でデータを収集するアプリケーションは、NameNode に接続する Hadoop の API を介して Hadoop クラスターにデータを保存します。 NameNode は、ファイル ディレクトリの構造と、作成された各ファイルの「チャンク」の配置をキャプチャします。 Hadoop は、並列処理のためにこれらのチャンクを DataNode 全体に複製します。

    MapReduce はデータのクエリを実行します。すべての DataNode をマップし、HDFS 内のデータに関連するタスクを削減します。 「MapReduce」という名前自体が、その機能を説明しています。マップ タスクは、提供された入力ファイルのすべてのノードで実行されますが、リデューサーはデータをリンクして最終出力を整理するために実行されます。

    Hadoop ビッグデータ ツール

    Hadoop のエコシステムは、さまざまなオープンソースのビッグデータ ツールをサポートしています。これらのツールは、Hadoop のコア コンポーネントを補完し、ビッグ データの処理能力を強化します。

    最も有用なビッグデータ処理ツールには次のものがあります:

    Hadoop の利点

    Hadoop はビッグ データ処理の堅牢なソリューションであり、ビッグ データを扱う企業にとって不可欠なツールです。

    Hadoop の主な機能と利点を以下に詳しく説明します。

    3 つの主な使用例

    ビッグデータの処理

    通常、ペタバイト以上の膨大な量のデータには Hadoop をお勧めします。膨大な処理能力を必要とする大量のデータに適しています。 Hadoop は、数百ギガバイトの範囲の少量のデータを処理する組織にとって最適な選択肢ではない可能性があります。

    さまざまなデータ セットの保存

    Hadoop を使用する多くの利点の 1 つは、柔軟性が高く、さまざまなデータ型をサポートすることです。データがテキスト、画像、またはビデオ データで構成されているかどうかに関係なく、Hadoop はデータを効率的に格納できます。組織は、要件に応じてデータの処理方法を選択できます。 Hadoop は、格納されたデータに柔軟性を提供するため、データ レイクの特性を備えています。

    並列データ処理

    Hadoop で使用される MapReduce アルゴリズムは、格納されたデータの並列処理を調整します。つまり、複数のタスクを同時に実行できます。ただし、Hadoop の標準的な方法論を混乱させるため、共同操作は許可されていません。データが互いに独立している限り、並列処理が組み込まれます。

    実世界での Hadoop の用途

    世界中の企業が Hadoop ビッグデータ処理システムを使用しています。 Hadoop の多くの実用的な用途のいくつかを以下に示します:

    Hadoop のその他の実用的な用途には、デバイスのパフォーマンスの改善、個人の定量化とパフォーマンスの最適化の改善、スポーツと科学研究の改善が含まれます。

    Hadoop を使用する上での課題は何ですか?

    すべてのアプリケーションには、利点と課題の両方が伴います。 Hadoop にはいくつかの課題もあります。

    結論

    Hadoop は、その課題を克服するために必要な手順で効果的に実装された場合、ビッグ データ処理に非常に効果的に対処できます。これは、大量のデータを扱う企業にとって汎用性の高いツールです。

    その主な利点の 1 つは、任意のハードウェアで実行でき、Hadoop クラスターを数千のサーバーに分散できることです。このような柔軟性は、infrastructure-as-code 環境では特に重要です。


    クラウドコンピューティング

    1. ビッグデータとクラウドコンピューティング:完璧な組み合わせ
    2. クラウドセキュリティとは何ですか?なぜそれが必要なのですか?
    3. ビッグデータとクラウドコンピューティングの関係は何ですか?
    4. ビジネスにおけるビッグデータとクラウドコンピューティングの使用
    5. 2018年にIoTプラットフォームに何を期待するか
    6. 予知保全–知っておくべきこと
    7. DDR5 RAMとは正確には何ですか?機能と可用性
    8. IIoTとは何ですか?
    9. ビッグデータと人工知能
    10. リトルデータからビッグデータを構築する
    11. ビッグデータが公益事業を再構築