
このチュートリアルでは、DigitalOceanでのHadoopクラスターのセットアップについて説明します。 Hadoopソフトウェアライブラリは、基本的なプログラミングモデルを活用して、サーバークラスター全体に分散した方法で大規模なデータセットを処理できるようにするApacheフレームワークです。 Hadoopが提供するスケーラビリティにより、単一のサーバーから数千台のマシンにスケールアップできます。 また、アプリケーション層での障害検出を提供するため、高可用性サービスとして障害を検出して処理できます。


  • Hadoop Common は、他のHadoopモジュールをサポートするために必要な共通のユーティリティとライブラリのコレクションです。
  • Hadoop分散ファイルシステム(HDFS)は、 Apache組織で述べられているように、フォールトトレラント性の高い分散ファイルシステムであり、特にコモディティハードウェアで実行して大規模なデータを処理するように設計されています。セット。
  • Hadoop YARN は、ジョブのスケジューリングとクラスターリソースの管理に使用されるフレームワークです。
  • Hadoop MapReduce は、大規模なデータセットを並列処理するためのYARNベースのシステムです。




  • root以外のsudoユーザーが設定された4つのUbuntu16.04ドロップレット。 この設定がない場合は、 Ubuntu 16.04を使用したサーバーの初期設定の手順1〜4に従ってください。 このチュートリアルでは、ローカルマシンのSSHキーを使用していることを前提としています。 Hadoopの言語に従って、これらのドロップレットを次の名前で参照します。

    • hadoop-master
    • hadoop-worker-01
    • hadoop-worker-02
    • hadoop-worker-03
  • さらに、サーバーの初期セットアップと、最初のドロップレットのステップ1および2 (下記)の完了後に、DigitalOceanスナップショットを使用することもできます。



4つのドロップレットのにJavaとHadoopをインストールします。 各ドロップレットで各ステップを繰り返したくない場合は、ステップ2の最後にあるDigitalOceanスナップショットを使用して、初期インストールと構成を複製できます。


  1. sudo apt-get update && sudo apt-get -y dist-upgrade

次に、Ubuntu用のヘッドレスバージョンのJavaを各ドロップレットにインストールしましょう。 「ヘッドレス」とは、グラフィカルユーザーインターフェイスなしでデバイス上で実行できるソフトウェアを指します。

  1. sudo apt-get -y install openjdk-8-jdk-headless

各ドロップレットにHadoopをインストールするには、Hadoopがインストールされるディレクトリを作成しましょう。 私たちはそれを呼ぶことができます my-hadoop-install 次に、そのディレクトリに移動します。

  1. mkdir my-hadoop-install && cd my-hadoop-install

ディレクトリを作成したら、Hadoopリリースリストから最新のバイナリをインストールしましょう。 このチュートリアルの時点で、最新のものは Hadoop 3.0.1.


選択したダウンロードに満足したら、 wget 次のような、選択したバイナリリンクを使用したコマンド。

  1. wget http://mirror.cc.columbia.edu/pub/software/apache/hadoop/common/hadoop-3.0.1/hadoop-3.0.1.tar.gz

ダウンロードが完了したら、を使用してファイルの内容を解凍します。 tar、Ubuntu用のファイルアーカイブツール:

  1. tar xvzf hadoop-3.0.1.tar.gz



ドロップレットノードごとに、設定する必要があります JAVA_HOME. 次のファイルをnanoまたは選択した別のテキストエディタで開いて、更新できるようにします。

  1. nano ~/my-hadoop-install/hadoop-3.0.1/etc/hadoop/hadoop-env.sh

次のセクションを更新します。 JAVA_HOME 位置しています:

また、Hadoopとそのモジュールを実行するために、いくつかの環境変数を追加する必要があります。 これらはファイルの最後に追加して、次のようにする必要があります。 sammy sudoのroot以外のユーザーのユーザー名になります。


# To prevent accidents, shell commands be (superficially) locked
# to only allow certain users to execute certain subcommands.
# It uses the format of (command)_(subcommand)_USER.
# For example, to limit who can execute the namenode command,
export HDFS_NAMENODE_USER="sammy"
export HDFS_DATANODE_USER="sammy"

この時点で、ファイルを保存して終了できます。 次に、次のコマンドを実行してエクスポートを適用します。

  1. source ~/my-hadoop-install/hadoop-3.0.1/etc/hadoop/hadoop-env.sh

とともに hadoop-env.sh スクリプトが更新されて供給された場合、Hadoop分散ファイルシステム(HDFS)のデータディレクトリを作成して、関連するすべてのものを保存する必要があります HDFS ファイル。

  1. sudo mkdir -p /usr/local/hadoop/hdfs/data

それぞれのユーザーでこのファイルの権限を設定します。 ドロップレットごとに異なるユーザー名を使用している場合は、それぞれのsudoユーザーに次の権限を付与するようにしてください。

  1. sudo chown -R sammy:sammy /usr/local/hadoop/hdfs/data

DigitalOceanスナップショットを使用してこれらのコマンドをドロップレットノード全体に複製する場合は、ここでスナップショットを作成し、このイメージから新しいドロップレットを作成できます。 これに関するガイダンスについては、DigitalOceanスナップショットの概要を読むことができます。



この時点で、更新する必要があります core_site.xml ドロップレットノードのすべての4のファイル。 個々のドロップレット内で、次のファイルを開きます。

  1. nano ~/my-hadoop-install/hadoop-3.0.1/etc/hadoop/core-site.xml



次のXMLのようにファイルを変更して、各ドロップレットのそれぞれのIPをプロパティ値の中に含めます。 server-ip 書かれました。 ファイアウォールを使用している場合は、ポート9000を開く必要があります。





Hadoopが正しく機能するためには、マスターノードとワーカーノードの間にパスワードなしのSSHを設定する必要があります( masterworker 参照するHadoopの言語です primarysecondary サーバー)。

このチュートリアルでは、マスターノードは次のようになります。 hadoop-master ワーカーノードはまとめて次のように呼ばれます hadoop-worker、ただし、合計で3つあります( -01, -02、 と -03). まず、マスターノードに公開鍵と秘密鍵のペアを作成する必要があります。マスターノードは、IPアドレスがに属するノードになります。 hadoop-master.

にいる間 hadoop-master ドロップレット、次のコマンドを実行します。 を押します enter キーの場所のデフォルトを使用するには、を押します enter 空のパスフレーズを使用するには2回:

  1. ssh-keygen

ワーカーノードごとに、マスターノードの公開鍵を取得して各ワーカーノードにコピーする必要があります。 authorized_keys ファイル。

を実行してマスターノードから公開鍵を取得します catid_rsa.pub あなたのにあるファイル .ssh フォルダ、コンソールに印刷するには:

