Como instalar o Hadoop no modo autônomo no CentOS 7

O Apache Hadoop é uma ferramenta de processamento de Big Data de código aberto, amplamente usada na indústria de TI.

Dependendo do tamanho, tipo e escala dos seus dados, você pode implantar o Hadoop no modo autônomo ou de cluster.

Neste tutorial focado no iniciante, instalaremos o Hadoop no modo independente em uma instância do servidor CentOS 7.

Pré-requisitos

  • Uma instância do servidor Vultr CentOS 7 x64 recém-criada.
  • Um usuário sudo .

Etapa 1: atualizar o sistema

Efetue login como usuário sudo e atualize o sistema CentOS 7 para o status estável mais recente:

sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now

Quando o servidor estiver online, efetue login novamente.

Etapa 2: instalar o Java

O Hadoop é baseado em Java e o OpenJDK 8 é a versão recomendada para a versão estável mais recente.

Instale o OpenJDK 8 JRE usando o YUM:

sudo yum install -y java-1.8.0-openjdk

Verifique a instalação do OpenJDK 8 JRE:

java -version

A saída deve se parecer com:

openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)

Etapa 3: instalar o Hadoop

Você sempre pode encontrar o URL de download da versão mais recente do Hadoop na página de lançamento oficial do Apache Hadoop . No momento da redação deste artigo, a versão estável mais recente do Hadoop é a 2.7.3.

Faça o download do arquivo binário do Hadoop 2.7.3:

cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Faça o download do arquivo de soma de verificação correspondente:

wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds

Instale a ferramenta de soma de verificação:

sudo yum install perl-Digest-SHA

Calcule o valor SHA256 do arquivo Hadoop:

shasum -a 256 hadoop-2.7.3.tar.gz

Exiba o conteúdo do arquivo hadoop-2.7.3.tar.gz.mdse verifique se os dois valores do SHA256 são idênticos:

cat hadoop-2.7.3.tar.gz.mds

Descompacte o arquivo compactado em um local designado:

sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt

Antes de executar o Hadoop corretamente, você precisa especificar o local inicial do Java para ele.

Abra o arquivo de configuração do ambiente Hadoop /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.shusando viou seu editor de texto favorito:

sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh

Encontre a linha:

export JAVA_HOME=$

Substitua por:

export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")

Essa configuração fará com que o Hadoop sempre use o local de instalação padrão do Java.

Salve e saia:

:wq!

Você pode adicionar o caminho do programa Hadoop à PATHvariável de ambiente para sua conveniência:

echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile

Etapa 4: executar e testar o Hadoop

Basta executar o comando hadoope você será solicitado com o uso do comando hadoop e seus vários parâmetros.

Aqui, você pode usar um exemplo interno para testar sua instalação do Hadoop.

Prepare a fonte de dados:

mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source

Use o Hadoop junto com o grep para gerar o resultado:

hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'

A saída deve ser:

    ...
    File System Counters
            FILE: Number of bytes read=1247812
            FILE: Number of bytes written=2336462
            FILE: Number of read operations=0
            FILE: Number of large read operations=0
            FILE: Number of write operations=0
    Map-Reduce Framework
            Map input records=2
            Map output records=2
            Map output bytes=37
            Map output materialized bytes=47
            Input split bytes=117
            Combine input records=0
            Combine output records=0
            Reduce input groups=2
            Reduce shuffle bytes=47
            Reduce input records=2
            Reduce output records=2
            Spilled Records=4
            Shuffled Maps =1
            Failed Shuffles=0
            Merged Map outputs=1
            GC time elapsed (ms)=24
            Total committed heap usage (bytes)=262758400
    Shuffle Errors
            BAD_ID=0
            CONNECTION=0
            IO_ERROR=0
            WRONG_LENGTH=0
            WRONG_MAP=0
            WRONG_REDUCE=0
    File Input Format Counters
            Bytes Read=151
    File Output Format Counters
            Bytes Written=37

Por fim, você pode visualizar o conteúdo dos arquivos de saída:

cat ~/output/*

O resultado deve ser:

6       principal
1       principal.

Agora você está pronto para explorar o Hadoop.

Deixar um comentário

A IA pode lutar contra o aumento do número de ataques de ransomware

A IA pode lutar contra o aumento do número de ataques de ransomware

Os ataques de ransomware estão aumentando, mas a IA pode ajudar a lidar com os vírus de computador mais recentes? AI é a resposta? Leia aqui para saber se é AI boone ou bane

ReactOS: Este é o futuro do Windows?

ReactOS: Este é o futuro do Windows?

ReactOS, um sistema operacional de código aberto e gratuito está aqui com a versão mais recente. Será que ela pode atender às necessidades dos usuários modernos do Windows e derrubar a Microsoft? Vamos descobrir mais sobre esse estilo antigo, mas uma experiência de sistema operacional mais recente.

Fique conectado por meio do aplicativo WhatsApp Desktop 24 * 7

Fique conectado por meio do aplicativo WhatsApp Desktop 24 * 7

O Whatsapp finalmente lançou o aplicativo Desktop para usuários de Mac e Windows. Agora você pode acessar o Whatsapp do Windows ou Mac facilmente. Disponível para Windows 8+ e Mac OS 10.9+

Como a IA pode levar a automação de processos ao próximo nível?

Como a IA pode levar a automação de processos ao próximo nível?

Leia isto para saber como a Inteligência Artificial está se tornando popular entre as empresas de pequena escala e como está aumentando as probabilidades de fazê-las crescer e dar vantagem a seus concorrentes.

A atualização do suplemento do macOS Catalina 10.15.4 está causando mais problemas do que resolvendo

A atualização do suplemento do macOS Catalina 10.15.4 está causando mais problemas do que resolvendo

Recentemente, a Apple lançou o macOS Catalina 10.15.4, uma atualização suplementar para corrigir problemas, mas parece que a atualização está causando mais problemas, levando ao bloqueio de máquinas mac. Leia este artigo para saber mais

13 Ferramentas de Extração de Dados Comerciais de Big Data

13 Ferramentas de Extração de Dados Comerciais de Big Data

13 Ferramentas de Extração de Dados Comerciais de Big Data

O que é um sistema de arquivos de registro no diário e como ele funciona?

O que é um sistema de arquivos de registro no diário e como ele funciona?

Nosso computador armazena todos os dados de uma maneira organizada conhecida como sistema de arquivos Journaling. É um método eficiente que permite ao computador pesquisar e exibir arquivos assim que você clicar em search.https: //wethegeek.com/? P = 94116 & preview = true

Singularidade tecnológica: um futuro distante da civilização humana?

Singularidade tecnológica: um futuro distante da civilização humana?

À medida que a ciência evolui em um ritmo rápido, assumindo muitos de nossos esforços, os riscos de nos sujeitarmos a uma singularidade inexplicável também aumentam. Leia, o que a singularidade pode significar para nós.

Uma visão sobre 26 técnicas analíticas de Big Data: Parte 1

Uma visão sobre 26 técnicas analíticas de Big Data: Parte 1

Uma visão sobre 26 técnicas analíticas de Big Data: Parte 1

O impacto da inteligência artificial na saúde 2021

O impacto da inteligência artificial na saúde 2021

A IA na área da saúde deu grandes saltos nas últimas décadas. Portanto, o futuro da IA ​​na área da saúde ainda está crescendo dia a dia.