CentOS 7에서 독립형 모드로 Hadoop을 설치하는 방법

Apache Hadoop은 IT 산업에서 널리 사용되는 오픈 소스 빅 데이터 처리 도구입니다.

데이터의 크기, 유형 및 규모에 따라 Hadoop을 독립형 또는 클러스터 모드로 배포 할 수 있습니다.

이 초보자 중심 자습서에서는 CentOS 7 서버 인스턴스에서 독립형 모드로 Hadoop을 설치합니다.

전제 조건

1 단계 : 시스템 업데이트

sudo 사용자로 로그인 한 후 CentOS 7 시스템을 최신 안정 상태로 업데이트하십시오.

sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now

서버가 온라인 상태가되면 다시 로그인하십시오.

2 단계 : Java 설치

하둡은 Java 기반이며 OpenJDK 8은 최신 안정 버전에 권장되는 버전입니다.

YUM을 사용하여 OpenJDK 8 JRE를 설치하십시오.

sudo yum install -y java-1.8.0-openjdk

OpenJDK 8 JRE 설치를 확인하십시오.

java -version

출력은 다음과 유사해야합니다.

openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)

3 단계 : 하둡 설치

공식 Apache Hadoop 릴리스 페이지 에서 항상 최신 버전의 Hadoop의 다운로드 URL을 찾을 수 있습니다 . 이 기사를 쓰는 시점에서 최신 안정 버전의 Hadoop은 2.7.3입니다.

Hadoop 2.7.3의 바이너리 아카이브를 다운로드하십시오.

cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

일치하는 체크섬 파일을 다운로드하십시오.

wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds

체크섬 도구를 설치하십시오.

sudo yum install perl-Digest-SHA

Hadoop 아카이브의 SHA256 값을 계산하십시오.

shasum -a 256 hadoop-2.7.3.tar.gz

파일의 내용을 표시하고 hadoop-2.7.3.tar.gz.mds두 SHA256 값이 동일한 지 확인하십시오.

cat hadoop-2.7.3.tar.gz.mds

지정된 위치에 아카이브를 압축 해제하십시오.

sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt

Hadoop을 올바르게 실행하기 전에 Java 홈 위치를 지정해야합니다.

또는 원하는 텍스트 편집기를 /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh사용하여 Hadoop 환경 구성 파일 을 엽니 다 vi.

sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh

줄을 찾으십시오.

export JAVA_HOME=$

다음으로 교체하십시오.

export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")

이 설정은 Hadoop이 항상 기본 설치 위치 인 Java를 사용하게합니다.

저장하고 종료하십시오 :

:wq!

PATH편의를 위해 Hadoop 프로그램의 경로를 환경 변수에 추가 할 수 있습니다 .

echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile

4 단계 : 하둡 실행 및 테스트

단순히 명령을 실행하면 hadoophadoop 명령의 사용법과 다양한 매개 변수가 프롬프트됩니다.

여기에서 내장 예제를 사용하여 Hadoop 설치를 테스트 할 수 있습니다.

데이터 소스를 준비하십시오.

mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source

grep과 함께 Hadoop을 사용하여 결과를 출력하십시오.

hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'

출력은 다음과 같아야합니다.

    ...
    File System Counters
            FILE: Number of bytes read=1247812
            FILE: Number of bytes written=2336462
            FILE: Number of read operations=0
            FILE: Number of large read operations=0
            FILE: Number of write operations=0
    Map-Reduce Framework
            Map input records=2
            Map output records=2
            Map output bytes=37
            Map output materialized bytes=47
            Input split bytes=117
            Combine input records=0
            Combine output records=0
            Reduce input groups=2
            Reduce shuffle bytes=47
            Reduce input records=2
            Reduce output records=2
            Spilled Records=4
            Shuffled Maps =1
            Failed Shuffles=0
            Merged Map outputs=1
            GC time elapsed (ms)=24
            Total committed heap usage (bytes)=262758400
    Shuffle Errors
            BAD_ID=0
            CONNECTION=0
            IO_ERROR=0
            WRONG_LENGTH=0
            WRONG_MAP=0
            WRONG_REDUCE=0
    File Input Format Counters
            Bytes Read=151
    File Output Format Counters
            Bytes Written=37

마지막으로 출력 파일의 내용을 볼 수 있습니다.

cat ~/output/*

결과는 다음과 같아야합니다.

6       principal
1       principal.

이제 Hadoop을 탐색 할 준비가되었습니다.



Leave a Comment

NTLite를 사용하여 업데이트로 Windows 사용자 지정 ISO를 만드는 방법

NTLite를 사용하여 업데이트로 Windows 사용자 지정 ISO를 만드는 방법

NTLite를 사용하여 Vultr 시스템과 호환되는 Windows 사용자 지정 ISO를 만드는 방법을 단계별로 설명합니다. 최신 드라이버와 업데이트 통합을 포함한 완벽 가이드.

Vultr에서 BGP 구성

Vultr에서 BGP 구성

Vultr BGP 설정을 위한 단계별 튜토리얼. ASN 할당부터 IP 라우팅 구성, BIRD 데몬 설정, FreeBSD 특이사항 및 실전 문제 해결 팁 7가지 포함한 최종 가이드

WsgiDAV를 사용하여 Debian 10에 WebDAV 배포

WsgiDAV를 사용하여 Debian 10에 WebDAV 배포

WebDAV (Web Distributed Authoring and Versioning)를 이용한 원격 파일 작성을 위한 프레임워크로, WsgiDAV 설치 및 구성 방법을 안내합니다.

데비안 7에 Mailcow 설치

데비안 7에 Mailcow 설치

Mailcow는 DoveCot, Postfix 및 기타 여러 오픈 소스 패키지를 기반으로 하는 경량 메일 서버입니다. 데비안에서 Mailcow 설치 방법을 안내합니다.

AI가 랜섬웨어 공격의 증가와 싸울 수 있습니까?

AI가 랜섬웨어 공격의 증가와 싸울 수 있습니까?

랜섬웨어 공격이 증가하고 있지만 AI가 최신 컴퓨터 바이러스를 처리하는 데 도움이 될 수 있습니까? AI가 답인가? AI boone 또는 bane인지 여기에서 읽으십시오.

ReactOS: 이것이 Windows의 미래입니까?

ReactOS: 이것이 Windows의 미래입니까?

오픈 소스이자 무료 운영 체제인 ReactOS가 최신 버전과 함께 제공됩니다. 현대 Windows 사용자의 요구 사항을 충족하고 Microsoft를 무너뜨릴 수 있습니까? 이 구식이지만 더 새로운 OS 환경에 대해 자세히 알아보겠습니다.

WhatsApp 데스크톱 앱 24*7을 통해 연결 유지

WhatsApp 데스크톱 앱 24*7을 통해 연결 유지

Whatsapp은 마침내 Mac 및 Windows 사용자용 데스크톱 앱을 출시했습니다. 이제 Windows 또는 Mac에서 Whatsapp에 쉽게 액세스할 수 있습니다. Windows 8 이상 및 Mac OS 10.9 이상에서 사용 가능

AI는 어떻게 프로세스 자동화를 다음 단계로 끌어올릴 수 있습니까?

AI는 어떻게 프로세스 자동화를 다음 단계로 끌어올릴 수 있습니까?

인공 지능이 소규모 회사에서 어떻게 인기를 얻고 있으며 어떻게 인공 지능이 성장할 가능성을 높이고 경쟁자가 우위를 점할 수 있는지 알아보려면 이 기사를 읽으십시오.

macOS Catalina 10.15.4 추가 업데이트로 인해 해결보다 더 많은 문제가 발생함

macOS Catalina 10.15.4 추가 업데이트로 인해 해결보다 더 많은 문제가 발생함

최근 Apple은 문제를 해결하기 위해 macOS Catalina 10.15.4 추가 업데이트를 출시했지만 이 업데이트로 인해 Mac 컴퓨터의 브릭킹으로 이어지는 더 많은 문제가 발생하는 것 같습니다. 자세히 알아보려면 이 기사를 읽어보세요.

빅데이터의 13가지 상용 데이터 추출 도구

빅데이터의 13가지 상용 데이터 추출 도구

빅데이터의 13가지 상용 데이터 추출 도구