Hadoop installeren in de stand-alone modus op CentOS 7

Apache Hadoop is een open source Big Data-verwerkingsprogramma, dat veel wordt gebruikt in de IT-industrie.

Afhankelijk van de grootte, het type en de schaal van uw gegevens, kunt u Hadoop in de zelfstandige modus of in de clustermodus implementeren.

In deze beginnersgerichte tutorial installeren we Hadoop in de zelfstandige modus op een CentOS 7-serverinstantie.

Vereisten

  • Een nieuw gemaakte Vultr CentOS 7 x64 serverinstantie.
  • Een sudo-gebruiker .

Stap 1: werk het systeem bij

Meld u aan als sudo-gebruiker en werk vervolgens het CentOS 7-systeem bij naar de laatste stabiele status:

sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now

Meld u opnieuw aan zodra de server online is.

Stap 2: installeer Java

Hadoop is gebaseerd op Java en OpenJDK 8 is de aanbevolen versie voor de nieuwste stabiele versie.

Installeer OpenJDK 8 JRE met YUM:

sudo yum install -y java-1.8.0-openjdk

Controleer de installatie van OpenJDK 8 JRE:

java -version

De uitvoer moet lijken op:

openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)

Stap 3: Installeer Hadoop

Je kunt de download-URL van de nieuwste versie van Hadoop altijd vinden op de officiële Apache Hadoop-releasepagina . Op het moment dat dit artikel wordt geschreven, is de nieuwste stabiele versie van Hadoop 2.7.3.

Download het binaire archief van Hadoop 2.7.3:

cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Download het bijpassende checksum-bestand:

wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds

Installeer de checksum tool:

sudo yum install perl-Digest-SHA

Bereken de SHA256-waarde van het Hadoop-archief:

shasum -a 256 hadoop-2.7.3.tar.gz

Geef de inhoud van het bestand weer hadoop-2.7.3.tar.gz.mdsen zorg ervoor dat de twee SHA256-waarden identiek zijn:

cat hadoop-2.7.3.tar.gz.mds

Pak het archief uit op een aangewezen locatie:

sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt

Voordat u Hadoop correct kunt uitvoeren, moet u de Java-thuislocatie ervoor opgeven.

Open het Hadoop-omgevingconfiguratiebestand /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.shmet viof uw favoriete teksteditor:

sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh

Zoek de regel:

export JAVA_HOME=$

Vervang het door:

export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")

Deze instelling zorgt ervoor dat Hadoop altijd de standaard installatielocatie van Java gebruikt.

Opslaan en afsluiten:

:wq!

U kunt PATHvoor uw gemak het pad van het Hadoop-programma toevoegen aan de omgevingsvariabele:

echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile

Stap 4: Voer Hadoop uit en test het

Voer gewoon de opdracht uit hadoopen u wordt gevraagd om het gebruik van de hadoop-opdracht en de verschillende parameters ervan.

Hier kunt u een ingebouwd voorbeeld gebruiken om uw Hadoop-installatie te testen.

Bereid de gegevensbron voor:

mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source

Gebruik Hadoop samen met grep om het resultaat uit te voeren:

hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'

De uitvoer moet zijn:

    ...
    File System Counters
            FILE: Number of bytes read=1247812
            FILE: Number of bytes written=2336462
            FILE: Number of read operations=0
            FILE: Number of large read operations=0
            FILE: Number of write operations=0
    Map-Reduce Framework
            Map input records=2
            Map output records=2
            Map output bytes=37
            Map output materialized bytes=47
            Input split bytes=117
            Combine input records=0
            Combine output records=0
            Reduce input groups=2
            Reduce shuffle bytes=47
            Reduce input records=2
            Reduce output records=2
            Spilled Records=4
            Shuffled Maps =1
            Failed Shuffles=0
            Merged Map outputs=1
            GC time elapsed (ms)=24
            Total committed heap usage (bytes)=262758400
    Shuffle Errors
            BAD_ID=0
            CONNECTION=0
            IO_ERROR=0
            WRONG_LENGTH=0
            WRONG_MAP=0
            WRONG_REDUCE=0
    File Input Format Counters
            Bytes Read=151
    File Output Format Counters
            Bytes Written=37

Ten slotte kunt u de inhoud van de uitvoerbestanden bekijken:

cat ~/output/*

Het resultaat zou moeten zijn:

6       principal
1       principal.

Je bent nu klaar om Hadoop te verkennen.



Leave a Comment

Kan AI vechten met toenemend aantal ransomware-aanvallen?

Kan AI vechten met toenemend aantal ransomware-aanvallen?

Ransomware-aanvallen nemen toe, maar kan AI helpen het nieuwste computervirus het hoofd te bieden? Is AI het antwoord? Lees hier weten is AI boezem of vloek

ReactOS: is dit de toekomst van Windows?

ReactOS: is dit de toekomst van Windows?

ReactOS, een open source en gratis besturingssysteem is hier met de nieuwste versie. Kan het voldoen aan de behoeften van moderne Windows-gebruikers en Microsoft uitschakelen? Laten we meer te weten komen over deze oude stijl, maar een nieuwere OS-ervaring.

Blijf verbonden via WhatsApp Desktop-app 24 * 7

Blijf verbonden via WhatsApp Desktop-app 24 * 7

WhatsApp heeft eindelijk de Desktop-app voor Mac- en Windows-gebruikers gelanceerd. Nu heb je eenvoudig toegang tot WhatsApp vanuit Windows of Mac. Beschikbaar voor Windows 8+ en Mac OS 10.9+

Hoe AI procesautomatisering naar een hoger niveau kan tillen?

Hoe AI procesautomatisering naar een hoger niveau kan tillen?

Lees dit om te weten hoe kunstmatige intelligentie populair wordt onder de kleinschalige bedrijven en hoe het de kansen vergroot om ze te laten groeien en hun concurrenten voorsprong te geven.

macOS Catalina 10.15.4 Supplement Update veroorzaakt meer problemen dan het oplost

macOS Catalina 10.15.4 Supplement Update veroorzaakt meer problemen dan het oplost

Onlangs heeft Apple macOS Catalina 10.15.4 uitgebracht, een aanvullende update om problemen op te lossen, maar het lijkt erop dat de update meer problemen veroorzaakt die ertoe leiden dat mac-machines worden gemetseld. Lees dit artikel voor meer informatie

13 Commerciële data-extractietools voor big data

13 Commerciële data-extractietools voor big data

13 Commerciële data-extractietools voor big data

Wat is een logboekbestandssysteem en hoe werkt het?

Wat is een logboekbestandssysteem en hoe werkt het?

Onze computer slaat alle gegevens op een georganiseerde manier op, het zogenaamde Journaling-bestandssysteem. Het is een efficiënte methode waarmee de computer bestanden kan zoeken en weergeven zodra u op zoeken drukt.https://wethegeek.com/?p=94116&preview=true

Technologische singulariteit: een verre toekomst van de menselijke beschaving?

Technologische singulariteit: een verre toekomst van de menselijke beschaving?

Naarmate de wetenschap zich snel ontwikkelt en veel van onze inspanningen overneemt, nemen ook de risico's toe om onszelf te onderwerpen aan een onverklaarbare singulariteit. Lees, wat singulariteit voor ons kan betekenen.

Een inzicht in 26 Big Data-analysetechnieken: deel 1

Een inzicht in 26 Big Data-analysetechnieken: deel 1

Een inzicht in 26 Big Data-analysetechnieken: deel 1

De impact van kunstmatige intelligentie in de gezondheidszorg 2021

De impact van kunstmatige intelligentie in de gezondheidszorg 2021

AI in de zorg heeft de afgelopen decennia grote sprongen gemaakt. De toekomst van AI in de gezondheidszorg groeit dus nog steeds met de dag.