So installieren Sie Hadoop im Standalone-Modus unter CentOS 7

Voraussetzungen
Schritt 1: Aktualisieren Sie das System
Schritt 2: Installieren Sie Java
Schritt 3: Installieren Sie Hadoop
Schritt 4: Führen Sie Hadoop aus und testen Sie es

Apache Hadoop ist ein Open-Source-Big-Data-Verarbeitungstool, das in der IT-Branche weit verbreitet ist.

Abhängig von der Größe, dem Typ und dem Umfang Ihrer Daten können Sie Hadoop im Standalone- oder Cluster-Modus bereitstellen.

In diesem Tutorial für Anfänger installieren wir Hadoop im eigenständigen Modus auf einer CentOS 7-Serverinstanz.

Voraussetzungen

Eine neu erstellte Vultr CentOS 7 x64-Serverinstanz.
Ein Sudo-Benutzer .

Schritt 1: Aktualisieren Sie das System

Melden Sie sich als Sudo-Benutzer an und aktualisieren Sie das CentOS 7-System auf den neuesten stabilen Status:

sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now

Sobald der Server online ist, melden Sie sich erneut an.

Schritt 2: Installieren Sie Java

Hadoop basiert auf Java und OpenJDK 8 ist die empfohlene Version für die neueste stabile Version.

Installieren Sie OpenJDK 8 JRE mit YUM:

sudo yum install -y java-1.8.0-openjdk

Überprüfen Sie die Installation von OpenJDK 8 JRE:

java -version

Die Ausgabe sollte wie folgt aussehen:

openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)

Schritt 3: Installieren Sie Hadoop

Die Download-URL der neuesten Version von Hadoop finden Sie immer auf der offiziellen Apache Hadoop-Release-Seite . Zum Zeitpunkt des Schreibens dieses Artikels ist die neueste stabile Version von Hadoop 2.7.3.

Laden Sie das Binärarchiv von Hadoop 2.7.3 herunter:

cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Laden Sie die passende Prüfsummen-Datei herunter:

wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds

Installieren Sie das Prüfsummen-Tool:

sudo yum install perl-Digest-SHA

Berechnen Sie den SHA256-Wert des Hadoop-Archivs:

shasum -a 256 hadoop-2.7.3.tar.gz

Zeigen Sie den Inhalt der Datei hadoop-2.7.3.tar.gz.mdsan und stellen Sie sicher, dass die beiden SHA256-Werte identisch sind:

cat hadoop-2.7.3.tar.gz.mds

Entpacken Sie das Archiv an einen bestimmten Ort:

sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt

Bevor Sie Hadoop ordnungsgemäß ausführen können, müssen Sie den Java-Ausgangsort dafür angeben.

Öffnen Sie die Konfigurationsdatei der Hadoop-Umgebung /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.shmit viIhrem bevorzugten Texteditor:

sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh

Finden Sie die Linie:

export JAVA_HOME=$

Ersetzen Sie es durch:

export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")

Mit dieser Einstellung verwendet Hadoop immer den Standardinstallationsort von Java.

Speichern und Beenden:

:wq!

Sie können den Pfad des Hadoop-Programms zur PATHVereinfachung der Umgebungsvariablen hinzufügen :

echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile

Schritt 4: Führen Sie Hadoop aus und testen Sie es

hadoopFühren Sie einfach den Befehl aus , und Sie werden aufgefordert , den Befehl hadoop und seine verschiedenen Parameter zu verwenden.

Hier können Sie ein integriertes Beispiel verwenden, um Ihre Hadoop-Installation zu testen.

Bereiten Sie die Datenquelle vor:

mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source

Verwenden Sie Hadoop zusammen mit grep, um das Ergebnis auszugeben:

hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'

Die Ausgabe sollte sein:

    ...
    File System Counters
            FILE: Number of bytes read=1247812
            FILE: Number of bytes written=2336462
            FILE: Number of read operations=0
            FILE: Number of large read operations=0
            FILE: Number of write operations=0
    Map-Reduce Framework
            Map input records=2
            Map output records=2
            Map output bytes=37
            Map output materialized bytes=47
            Input split bytes=117
            Combine input records=0
            Combine output records=0
            Reduce input groups=2
            Reduce shuffle bytes=47
            Reduce input records=2
            Reduce output records=2
            Spilled Records=4
            Shuffled Maps =1
            Failed Shuffles=0
            Merged Map outputs=1
            GC time elapsed (ms)=24
            Total committed heap usage (bytes)=262758400
    Shuffle Errors
            BAD_ID=0
            CONNECTION=0
            IO_ERROR=0
            WRONG_LENGTH=0
            WRONG_MAP=0
            WRONG_REDUCE=0
    File Input Format Counters
            Bytes Read=151
    File Output Format Counters
            Bytes Written=37

Schließlich können Sie den Inhalt der Ausgabedateien anzeigen:

cat ~/output/*

Das Ergebnis sollte sein:

6       principal
1       principal.

Sie können jetzt Hadoop erkunden.

Einen Kommentar hinterlassen

Kommentar *

Name *

Website

Kann KI mit zunehmender Anzahl von Ransomware-Angriffen kämpfen?

Ransomware-Angriffe nehmen zu, aber kann KI helfen, den neuesten Computervirus zu bekämpfen? Ist KI die Antwort? Lesen Sie hier, ob KI boone oder bane ist

ReactOS: Ist das die Zukunft von Windows?

ReactOS, ein quelloffenes und kostenloses Betriebssystem, ist hier mit der neuesten Version. Kann es den Anforderungen moderner Windows-Benutzer genügen und Microsoft zu Fall bringen? Lassen Sie uns mehr über dieses alte, aber neuere Betriebssystem erfahren.

Bleiben Sie in Verbindung über die WhatsApp Desktop App 24*7

Whatsapp hat endlich die Desktop-App für Mac- und Windows-Benutzer auf den Markt gebracht. Jetzt können Sie ganz einfach von Windows oder Mac auf WhatsApp zugreifen. Verfügbar für Windows 8+ und Mac OS 10.9+

Wie kann KI die Prozessautomatisierung auf die nächste Stufe heben?

Lesen Sie dies, um zu erfahren, wie Künstliche Intelligenz bei kleinen Unternehmen beliebt wird und wie sie die Wahrscheinlichkeit erhöht, sie wachsen zu lassen und ihren Konkurrenten einen Vorsprung zu verschaffen.

macOS Catalina 10.15.4 Supplement Update verursacht mehr Probleme als sie zu lösen

Vor kurzem hat Apple macOS Catalina 10.15.4 als Ergänzungsupdate veröffentlicht, um Probleme zu beheben, aber es scheint, dass das Update mehr Probleme verursacht, die zum Bricking von Mac-Computern führen. Lesen Sie diesen Artikel, um mehr zu erfahren

13 Tools zur kommerziellen Datenextraktion von Big Data

Was ist ein Journaling-Dateisystem und wie funktioniert es?

Unser Computer speichert alle Daten in einer organisierten Weise, die als Journaling-Dateisystem bekannt ist. Es ist eine effiziente Methode, die es dem Computer ermöglicht, Dateien zu suchen und anzuzeigen, sobald Sie auf die Suche klicken.https://wethegeek.com/?p=94116&preview=true

Technologische Singularität: Eine ferne Zukunft der menschlichen Zivilisation?

Da sich die Wissenschaft schnell weiterentwickelt und einen Großteil unserer Bemühungen übernimmt, steigt auch das Risiko, uns einer unerklärlichen Singularität auszusetzen. Lesen Sie, was Singularität für uns bedeuten könnte.

Ein Einblick in 26 Big-Data-Analysetechniken: Teil 1

Der Einfluss künstlicher Intelligenz im Gesundheitswesen 2021

KI im Gesundheitswesen hat in den letzten Jahrzehnten große Fortschritte gemacht. Somit wächst die Zukunft der KI im Gesundheitswesen immer noch von Tag zu Tag.