Como instalar o Hadoop no modo autônomo no CentOS 7

Pré-requisitos
Etapa 1: atualizar o sistema
Etapa 2: instalar o Java
Etapa 3: instalar o Hadoop
Etapa 4: executar e testar o Hadoop

O Apache Hadoop é uma ferramenta de processamento de Big Data de código aberto, amplamente usada na indústria de TI.

Dependendo do tamanho, tipo e escala dos seus dados, você pode implantar o Hadoop no modo autônomo ou de cluster.

Neste tutorial focado no iniciante, instalaremos o Hadoop no modo independente em uma instância do servidor CentOS 7.

Pré-requisitos

Uma instância do servidor Vultr CentOS 7 x64 recém-criada.
Um usuário sudo .

Etapa 1: atualizar o sistema

Efetue login como usuário sudo e atualize o sistema CentOS 7 para o status estável mais recente:

sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now

Quando o servidor estiver online, efetue login novamente.

Etapa 2: instalar o Java

O Hadoop é baseado em Java e o OpenJDK 8 é a versão recomendada para a versão estável mais recente.

Instale o OpenJDK 8 JRE usando o YUM:

sudo yum install -y java-1.8.0-openjdk

Verifique a instalação do OpenJDK 8 JRE:

java -version

A saída deve se parecer com:

openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)

Etapa 3: instalar o Hadoop

Você sempre pode encontrar o URL de download da versão mais recente do Hadoop na página de lançamento oficial do Apache Hadoop . No momento da redação deste artigo, a versão estável mais recente do Hadoop é a 2.7.3.

Faça o download do arquivo binário do Hadoop 2.7.3:

cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Faça o download do arquivo de soma de verificação correspondente:

wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds

Instale a ferramenta de soma de verificação:

sudo yum install perl-Digest-SHA

Calcule o valor SHA256 do arquivo Hadoop:

shasum -a 256 hadoop-2.7.3.tar.gz

Exiba o conteúdo do arquivo hadoop-2.7.3.tar.gz.mdse verifique se os dois valores do SHA256 são idênticos:

cat hadoop-2.7.3.tar.gz.mds

Descompacte o arquivo compactado em um local designado:

sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt

Antes de executar o Hadoop corretamente, você precisa especificar o local inicial do Java para ele.

Abra o arquivo de configuração do ambiente Hadoop /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.shusando viou seu editor de texto favorito:

sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh

Encontre a linha:

export JAVA_HOME=$

Substitua por:

export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")

Essa configuração fará com que o Hadoop sempre use o local de instalação padrão do Java.

Salve e saia:

:wq!

Você pode adicionar o caminho do programa Hadoop à PATHvariável de ambiente para sua conveniência:

echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile

Etapa 4: executar e testar o Hadoop

Basta executar o comando hadoope você será solicitado com o uso do comando hadoop e seus vários parâmetros.

Aqui, você pode usar um exemplo interno para testar sua instalação do Hadoop.

Prepare a fonte de dados:

mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source

Use o Hadoop junto com o grep para gerar o resultado:

hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'

A saída deve ser:

    ...
    File System Counters
            FILE: Number of bytes read=1247812
            FILE: Number of bytes written=2336462
            FILE: Number of read operations=0
            FILE: Number of large read operations=0
            FILE: Number of write operations=0
    Map-Reduce Framework
            Map input records=2
            Map output records=2
            Map output bytes=37
            Map output materialized bytes=47
            Input split bytes=117
            Combine input records=0
            Combine output records=0
            Reduce input groups=2
            Reduce shuffle bytes=47
            Reduce input records=2
            Reduce output records=2
            Spilled Records=4
            Shuffled Maps =1
            Failed Shuffles=0
            Merged Map outputs=1
            GC time elapsed (ms)=24
            Total committed heap usage (bytes)=262758400
    Shuffle Errors
            BAD_ID=0
            CONNECTION=0
            IO_ERROR=0
            WRONG_LENGTH=0
            WRONG_MAP=0
            WRONG_REDUCE=0
    File Input Format Counters
            Bytes Read=151
    File Output Format Counters
            Bytes Written=37

Por fim, você pode visualizar o conteúdo dos arquivos de saída:

cat ~/output/*

O resultado deve ser:

6       principal
1       principal.

Agora você está pronto para explorar o Hadoop.

Deixar um comentário

Comentário *

Nome *

Website

A IA pode lutar contra o aumento do número de ataques de ransomware

Os ataques de ransomware estão aumentando, mas a IA pode ajudar a lidar com os vírus de computador mais recentes? AI é a resposta? Leia aqui para saber se é AI boone ou bane

ReactOS: Este é o futuro do Windows?

ReactOS, um sistema operacional de código aberto e gratuito está aqui com a versão mais recente. Será que ela pode atender às necessidades dos usuários modernos do Windows e derrubar a Microsoft? Vamos descobrir mais sobre esse estilo antigo, mas uma experiência de sistema operacional mais recente.

Fique conectado por meio do aplicativo WhatsApp Desktop 24 * 7

O Whatsapp finalmente lançou o aplicativo Desktop para usuários de Mac e Windows. Agora você pode acessar o Whatsapp do Windows ou Mac facilmente. Disponível para Windows 8+ e Mac OS 10.9+

Como a IA pode levar a automação de processos ao próximo nível?

Leia isto para saber como a Inteligência Artificial está se tornando popular entre as empresas de pequena escala e como está aumentando as probabilidades de fazê-las crescer e dar vantagem a seus concorrentes.

A atualização do suplemento do macOS Catalina 10.15.4 está causando mais problemas do que resolvendo

Recentemente, a Apple lançou o macOS Catalina 10.15.4, uma atualização suplementar para corrigir problemas, mas parece que a atualização está causando mais problemas, levando ao bloqueio de máquinas mac. Leia este artigo para saber mais

13 Ferramentas de Extração de Dados Comerciais de Big Data

O que é um sistema de arquivos de registro no diário e como ele funciona?

Nosso computador armazena todos os dados de uma maneira organizada conhecida como sistema de arquivos Journaling. É um método eficiente que permite ao computador pesquisar e exibir arquivos assim que você clicar em search.https: //wethegeek.com/? P = 94116 & preview = true

Singularidade tecnológica: um futuro distante da civilização humana?

À medida que a ciência evolui em um ritmo rápido, assumindo muitos de nossos esforços, os riscos de nos sujeitarmos a uma singularidade inexplicável também aumentam. Leia, o que a singularidade pode significar para nós.

Uma visão sobre 26 técnicas analíticas de Big Data: Parte 1

O impacto da inteligência artificial na saúde 2021

A IA na área da saúde deu grandes saltos nas últimas décadas. Portanto, o futuro da IA na área da saúde ainda está crescendo dia a dia.