CentOS 7にスタンドアロンモードでHadoopをインストールする方法

Apache Hadoopは、IT業界で広く使用されているオープンソースのビッグデータ処理ツールです。

データのサイズ、タイプ、スケールに応じて、Hadoopをスタンドアロンモードまたはクラスターモードでデプロイできます。

この初心者向けのチュートリアルでは、CentOS 7サーバーインスタンスにスタンドアロンモードでHadoopをインストールします。

前提条件

  • 新しく作成されたVultr CentOS 7 x64サーバーインスタンス。
  • sudoのユーザー

ステップ1:システムを更新する

sudoユーザーとしてログインし、CentOS 7システムを最新の安定したステータスに更新します。

sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now

サーバーがオンラインになったら、再度ログインします。

ステップ2:Javaをインストールする

HadoopはJavaベースであり、OpenJDK 8が最新の安定バージョンの推奨バージョンです。

YUMを使用してOpenJDK 8 JREをインストールします。

sudo yum install -y java-1.8.0-openjdk

OpenJDK 8 JREのインストールを確認します。

java -version

出力は次のようになります。

openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)

ステップ3:Hadoopをインストールする

最新バージョンのHadoopのダウンロードURLは、公式のApache Hadoopリリースページからいつでも確認できます。この記事の執筆時点では、Hadoopの最新の安定バージョンは2.7.3です。

Hadoop 2.7.3のバイナリアーカイブをダウンロードします。

cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

一致するチェックサムファイルをダウンロードします。

wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds

チェックサムツールをインストールします。

sudo yum install perl-Digest-SHA

HadoopアーカイブのSHA256値を計算します。

shasum -a 256 hadoop-2.7.3.tar.gz

ファイルの内容を表示hadoop-2.7.3.tar.gz.mdsし、2つのSHA256値が同じであることを確認します。

cat hadoop-2.7.3.tar.gz.mds

指定した場所にアーカイブを解凍します。

sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt

Hadoopを適切に実行するには、その前にJavaホームの場所を指定する必要があります。

またはお気に入りのテキストエディター/opt/hadoop-2.7.3/etc/hadoop/hadoop-env.shを使用して、Hadoop環境構成ファイルを開きviます。

sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh

行を見つけます:

export JAVA_HOME=$

それを次のものに置き換えます。

export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")

この設定により、Hadoopは常にJavaのデフォルトのインストール場所を使用します。

保存して終了:

:wq!

PATH便宜上、Hadoopプログラムのパスを環境変数に追加できます。

echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile

ステップ4:Hadoopを実行してテストする

コマンドを実行するだけhadoopで、hadoopコマンドとそのさまざまなパラメーターの使用法が表示されます。

ここでは、組み込みの例を使用して、Hadoopインストールをテストできます。

データソースを準備します。

mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source

Hadoopをgrepとともに使用して、結果を出力します。

hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'

出力は次のようになります。

    ...
    File System Counters
            FILE: Number of bytes read=1247812
            FILE: Number of bytes written=2336462
            FILE: Number of read operations=0
            FILE: Number of large read operations=0
            FILE: Number of write operations=0
    Map-Reduce Framework
            Map input records=2
            Map output records=2
            Map output bytes=37
            Map output materialized bytes=47
            Input split bytes=117
            Combine input records=0
            Combine output records=0
            Reduce input groups=2
            Reduce shuffle bytes=47
            Reduce input records=2
            Reduce output records=2
            Spilled Records=4
            Shuffled Maps =1
            Failed Shuffles=0
            Merged Map outputs=1
            GC time elapsed (ms)=24
            Total committed heap usage (bytes)=262758400
    Shuffle Errors
            BAD_ID=0
            CONNECTION=0
            IO_ERROR=0
            WRONG_LENGTH=0
            WRONG_MAP=0
            WRONG_REDUCE=0
    File Input Format Counters
            Bytes Read=151
    File Output Format Counters
            Bytes Written=37

最後に、出力ファイルの内容を表示できます。

cat ~/output/*

結果は次のようになります。

6       principal
1       principal.

これで、Hadoopを探索する準備ができました。



Leave a Comment

CentOS 7にApacheをインストールする方法

CentOS 7にApacheをインストールする方法

CentOS 7サーバーにApache 2.4をインストールする方法を説明します。安定したウェブサーバーを構築するための前提条件と手順を解説します。

FreeBSD 11.1にBlacklistdをインストールする方法

FreeBSD 11.1にBlacklistdをインストールする方法

FreeBSD 11.1におけるBlacklistdのインストール方法について詳しく解説します。この方法を通じて、強力なセキュリティ対策を実装できます。

Windows Serverのサーバーマネージャーを使用した複数サーバーの管理

Windows Serverのサーバーマネージャーを使用した複数サーバーの管理

サーバーマネージャーを使用して、Windows Serverの管理が向上します。セキュリティリスクを軽減し、効率的な管理を実現します。

CentOS 7にSeafileサーバーをインストールする方法

CentOS 7にSeafileサーバーをインストールする方法

CentOS 7にSeafileサーバーをインストールする方法。Seafile(コミュニティバージョン)は、ownCloudに似た無料のオープンソースファイル同期および共有ソリューションです。

DebianでSnortを設定する方法

DebianでSnortを設定する方法

Snortは無料のネットワーク侵入検知システムです。最新の方法で、SnortをDebianにインストールし、設定する手順を紹介します。ネットワークのセキュリティを強化しましょう。

CentOS 7にGraylogサーバーをインストールする方法

CentOS 7にGraylogサーバーをインストールする方法

CentOS 7にGraylogサーバーをインストールし、ログ管理を行う方法を学びます。

WindowsでhMailServerを使用してメールサーバーを構築する

WindowsでhMailServerを使用してメールサーバーを構築する

WindowsサーバーでWebサイトを実行している場合、電子メールも受信できるようにするためにhMailServerを使用する方法を解説します。

Ubuntu 19.04にFiveMサーバーをインストールする方法

Ubuntu 19.04にFiveMサーバーをインストールする方法

FiveMサーバーをUbuntu 19.04にインストールするための詳細なガイド。必要条件からインストール、起動、トラブルシューティングまで、すべてのステップを含みます。

WsgiDAVを使用してDebian 10にWebDAVをデプロイする

WsgiDAVを使用してDebian 10にWebDAVをデプロイする

Debian 10にWebDAVをデプロイする方法を学び、WsgiDAVとSSL証明書で安全な接続を実現しましょう。

ヘルスケア2021における人工知能の影響

ヘルスケア2021における人工知能の影響

ヘルスケアにおけるAIは、過去数十年から大きな飛躍を遂げました。したがって、ヘルスケアにおけるAIの未来は、日々成長を続けています。