如何在CentOS 7上以独立模式安装Hadoop

Apache Hadoop是一个开源的大数据处理工具,在IT行业中广泛使用。

根据数据的大小,类型和规模,您可以以独立或集群模式部署Hadoop。

在这个针对初学者的教程中,我们将以独立模式在CentOS 7服务器实例上安装Hadoop。

先决条件

  • 新创建的Vultr CentOS 7 x64服​​务器实例。
  • 一个sudo的用户

步骤1:更新系统

以sudo用户身份登录,然后将CentOS 7系统更新为最新的稳定状态:

sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now

服务器联机后,重新登录。

步骤2:安装Java

Hadoop是基于Java的,并且OpenJDK 8是最新稳定版本的推荐版本。

使用YUM安装OpenJDK 8 JRE:

sudo yum install -y java-1.8.0-openjdk

验证OpenJDK 8 JRE的安装:

java -version

输出应类似于:

openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)

步骤3:安装Hadoop

您始终可以从Apache Hadoop官方发布页面上找到最新版本Hadoop的下载URL 。在撰写本文时,Hadoop的最新稳定版本是2.7.3。

下载Hadoop 2.7.3的二进制归档文件:

cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

下载匹配的校验和文件:

wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds

安装校验和工具:

sudo yum install perl-Digest-SHA

计算Hadoop归档文件的SHA256值:

shasum -a 256 hadoop-2.7.3.tar.gz

显示文件的内容hadoop-2.7.3.tar.gz.mds,并确保两个SHA256值相同:

cat hadoop-2.7.3.tar.gz.mds

将档案解压缩到指定位置:

sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt

在正确运行Hadoop之前,您需要为其指定Java主目录位置。

/opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh使用vi或您喜欢的文本编辑器打开Hadoop环境配置文件:

sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh

找到这行:

export JAVA_HOME=$

替换为:

export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")

此设置将使Hadoop始终使用Java的默认安装位置。

保存并退出:

:wq!

PATH为了方便起见,可以将Hadoop程序的路径添加到环境变量中:

echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile

步骤4:运行和测试Hadoop

只需执行命令hadoop,就会提示您hadoop命令及其各种参数的用法。

在这里,您可以使用内置示例来测试Hadoop安装。

准备数据源:

mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source

结合使用Hadoop和grep来输出结果:

hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'

输出应为:

    ...
    File System Counters
            FILE: Number of bytes read=1247812
            FILE: Number of bytes written=2336462
            FILE: Number of read operations=0
            FILE: Number of large read operations=0
            FILE: Number of write operations=0
    Map-Reduce Framework
            Map input records=2
            Map output records=2
            Map output bytes=37
            Map output materialized bytes=47
            Input split bytes=117
            Combine input records=0
            Combine output records=0
            Reduce input groups=2
            Reduce shuffle bytes=47
            Reduce input records=2
            Reduce output records=2
            Spilled Records=4
            Shuffled Maps =1
            Failed Shuffles=0
            Merged Map outputs=1
            GC time elapsed (ms)=24
            Total committed heap usage (bytes)=262758400
    Shuffle Errors
            BAD_ID=0
            CONNECTION=0
            IO_ERROR=0
            WRONG_LENGTH=0
            WRONG_MAP=0
            WRONG_REDUCE=0
    File Input Format Counters
            Bytes Read=151
    File Output Format Counters
            Bytes Written=37

最后,您可以查看输出文件的内容:

cat ~/output/*

结果应为:

6       principal
1       principal.

现在您已经准备好探索Hadoop。

留下評論

在Arch Linux上使用Makepkg

在Arch Linux上使用Makepkg

在Arch Linux上使用Makepkg可以避免系统污染,确保仅安装必要的依赖关系。

如何在Ubuntu 16.04上安装OpenSIPS控制面板

如何在Ubuntu 16.04上安装OpenSIPS控制面板

快速学习如何在Ubuntu 16.04上安装OpenSIPS控制面板,为VoIP提供商提供支持的功能。

在Fedora 28上安装Akaunting

在Fedora 28上安装Akaunting

学习如何在Fedora 28上安装Akaunting,一款适合小型企业和自由职业者的开源会计软件。

如何在CentOS 7上安装Mailtrain新闻通讯应用程序

如何在CentOS 7上安装Mailtrain新闻通讯应用程序

使用其他系统?Mailtrain是一个基于Node.js和MySQL / MariaDB构建的开源自托管新闻通讯应用程序。

诊断Minecraft服务器延迟和低TPS

诊断Minecraft服务器延迟和低TPS

了解導致Minecraft延遲的原因和解決方案,包括優化伺服器性能和減少滯後的步驟。

AI 能否應對越來越多的勒索軟件攻擊?

AI 能否應對越來越多的勒索軟件攻擊?

勒索軟件攻擊呈上升趨勢,但人工智能能否幫助應對最新的計算機病毒?AI 是答案嗎?在這裡閱讀知道是 AI 布恩還是禍根

ReactOS:這是 Windows 的未來嗎?

ReactOS:這是 Windows 的未來嗎?

ReactOS,一個開源和免費的操作系統,這裡有最新版本。它能否滿足現代 Windows 用戶的需求並打倒微軟?讓我們更多地了解這種老式但更新的操作系統體驗。

通過 WhatsApp 桌面應用程序 24*7 保持聯繫

通過 WhatsApp 桌面應用程序 24*7 保持聯繫

Whatsapp 終於為 Mac 和 Windows 用戶推出了桌面應用程序。現在您可以輕鬆地從 Windows 或 Mac 訪問 Whatsapp。適用於 Windows 8+ 和 Mac OS 10.9+

人工智能如何將流程自動化提升到新的水平?

人工智能如何將流程自動化提升到新的水平?

閱讀本文以了解人工智能如何在小型公司中變得流行,以及它如何增加使它們成長並為競爭對手提供優勢的可能性。

macOS Catalina 10.15.4 補充更新引發的問題多於解決

macOS Catalina 10.15.4 補充更新引發的問題多於解決

最近,Apple 發布了 macOS Catalina 10.15.4 補充更新以修復問題,但似乎該更新引起了更多問題,導致 mac 機器變磚。閱讀這篇文章以了解更多信息