在Arch Linux上使用Makepkg
在Arch Linux上使用Makepkg可以避免系统污染,确保仅安装必要的依赖关系。
Apache Hadoop是一个开源的大数据处理工具,在IT行业中广泛使用。
根据数据的大小,类型和规模,您可以以独立或集群模式部署Hadoop。
在这个针对初学者的教程中,我们将以独立模式在CentOS 7服务器实例上安装Hadoop。
以sudo用户身份登录,然后将CentOS 7系统更新为最新的稳定状态:
sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now
服务器联机后,重新登录。
Hadoop是基于Java的,并且OpenJDK 8是最新稳定版本的推荐版本。
使用YUM安装OpenJDK 8 JRE:
sudo yum install -y java-1.8.0-openjdk
验证OpenJDK 8 JRE的安装:
java -version
输出应类似于:
openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)
您始终可以从Apache Hadoop官方发布页面上找到最新版本Hadoop的下载URL 。在撰写本文时,Hadoop的最新稳定版本是2.7.3。
下载Hadoop 2.7.3的二进制归档文件:
cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
下载匹配的校验和文件:
wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds
安装校验和工具:
sudo yum install perl-Digest-SHA
计算Hadoop归档文件的SHA256值:
shasum -a 256 hadoop-2.7.3.tar.gz
显示文件的内容hadoop-2.7.3.tar.gz.mds,并确保两个SHA256值相同:
cat hadoop-2.7.3.tar.gz.mds
将档案解压缩到指定位置:
sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt
在正确运行Hadoop之前,您需要为其指定Java主目录位置。
/opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh使用vi或您喜欢的文本编辑器打开Hadoop环境配置文件:
sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh
找到这行:
export JAVA_HOME=$
替换为:
export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")
此设置将使Hadoop始终使用Java的默认安装位置。
保存并退出:
:wq!
PATH为了方便起见,可以将Hadoop程序的路径添加到环境变量中:
echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile
只需执行命令hadoop,就会提示您hadoop命令及其各种参数的用法。
在这里,您可以使用内置示例来测试Hadoop安装。
准备数据源:
mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source
结合使用Hadoop和grep来输出结果:
hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'
输出应为:
...
File System Counters
FILE: Number of bytes read=1247812
FILE: Number of bytes written=2336462
FILE: Number of read operations=0
FILE: Number of large read operations=0
FILE: Number of write operations=0
Map-Reduce Framework
Map input records=2
Map output records=2
Map output bytes=37
Map output materialized bytes=47
Input split bytes=117
Combine input records=0
Combine output records=0
Reduce input groups=2
Reduce shuffle bytes=47
Reduce input records=2
Reduce output records=2
Spilled Records=4
Shuffled Maps =1
Failed Shuffles=0
Merged Map outputs=1
GC time elapsed (ms)=24
Total committed heap usage (bytes)=262758400
Shuffle Errors
BAD_ID=0
CONNECTION=0
IO_ERROR=0
WRONG_LENGTH=0
WRONG_MAP=0
WRONG_REDUCE=0
File Input Format Counters
Bytes Read=151
File Output Format Counters
Bytes Written=37
最后,您可以查看输出文件的内容:
cat ~/output/*
结果应为:
6 principal
1 principal.
现在您已经准备好探索Hadoop。
在Arch Linux上使用Makepkg可以避免系统污染,确保仅安装必要的依赖关系。
快速学习如何在Ubuntu 16.04上安装OpenSIPS控制面板,为VoIP提供商提供支持的功能。
学习如何在Fedora 28上安装Akaunting,一款适合小型企业和自由职业者的开源会计软件。
使用其他系统?Mailtrain是一个基于Node.js和MySQL / MariaDB构建的开源自托管新闻通讯应用程序。
了解導致Minecraft延遲的原因和解決方案,包括優化伺服器性能和減少滯後的步驟。
勒索軟件攻擊呈上升趨勢,但人工智能能否幫助應對最新的計算機病毒?AI 是答案嗎?在這裡閱讀知道是 AI 布恩還是禍根
ReactOS,一個開源和免費的操作系統,這裡有最新版本。它能否滿足現代 Windows 用戶的需求並打倒微軟?讓我們更多地了解這種老式但更新的操作系統體驗。
Whatsapp 終於為 Mac 和 Windows 用戶推出了桌面應用程序。現在您可以輕鬆地從 Windows 或 Mac 訪問 Whatsapp。適用於 Windows 8+ 和 Mac OS 10.9+
閱讀本文以了解人工智能如何在小型公司中變得流行,以及它如何增加使它們成長並為競爭對手提供優勢的可能性。
最近,Apple 發布了 macOS Catalina 10.15.4 補充更新以修復問題,但似乎該更新引起了更多問題,導致 mac 機器變磚。閱讀這篇文章以了解更多信息