Cara Memasang Hadoop dalam Mod Berdiri Sendiri di CentOS 7

Apache Hadoop adalah alat pemprosesan Big Source sumber terbuka, yang banyak digunakan dalam industri IT.

Bergantung pada ukuran, jenis, dan skala data anda, Anda dapat menerapkan Hadoop dalam mod berdiri sendiri atau kluster.

Dalam tutorial yang berfokus pada pemula ini, kami akan memasang Hadoop dalam mod yang berdiri sendiri pada contoh pelayan CentOS 7.

Prasyarat

  • Contoh pelayan Vultr CentOS 7 x64 yang baru dibuat.
  • Pengguna sudo .

Langkah 1: Kemas kini sistem

Log masuk sebagai pengguna sudo, dan kemudian kemas kini sistem CentOS 7 ke status stabil terkini:

sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now

Setelah pelayan dalam talian, log masuk semula.

Langkah 2: Pasang Java

Hadoop berasaskan Java dan OpenJDK 8 adalah versi yang disyorkan untuk versi stabil terbaru.

Pasang OpenJDK 8 JRE menggunakan YUM:

sudo yum install -y java-1.8.0-openjdk

Sahkan pemasangan OpenJDK 8 JRE:

java -version

Keluarannya harus menyerupai:

openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)

Langkah 3: Pasang Hadoop

Anda sentiasa dapat mencari URL muat turun Hadoop versi terkini dari halaman pelepasan rasmi Apache Hadoop . Pada masa penulisan artikel ini, Hadoop versi stabil terkini adalah 2.7.3.

Muat turun arkib binari Hadoop 2.7.3:

cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Muat turun fail checksum yang sepadan:

wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds

Pasang alat checksum:

sudo yum install perl-Digest-SHA

Hitung nilai SHA256 arkib Hadoop:

shasum -a 256 hadoop-2.7.3.tar.gz

Paparkan kandungan fail hadoop-2.7.3.tar.gz.mds, dan pastikan dua nilai SHA256 adalah sama:

cat hadoop-2.7.3.tar.gz.mds

Buka zip dari arkib ke lokasi yang ditentukan:

sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt

Sebelum anda dapat menjalankan Hadoop dengan betul, anda perlu menentukan lokasi rumah Java untuknya.

Buka fail konfigurasi persekitaran Hadoop /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.shmenggunakan viatau penyunting teks kegemaran anda:

sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh

Cari baris:

export JAVA_HOME=$

Gantikan dengan:

export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")

Pengaturan ini akan menjadikan Hadoop selalu menggunakan lokasi pemasangan lalai Java.

Simpan dan tutup:

:wq!

Anda boleh menambahkan jalan program Hadoop ke PATHpemboleh ubah persekitaran untuk kemudahan anda:

echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile

Langkah 4: Jalankan dan uji Hadoop

Cukup jalankan perintah hadoop, dan anda akan diminta dengan penggunaan perintah hadoop dan berbagai parameternya.

Di sini, anda boleh menggunakan contoh terbina dalam untuk menguji pemasangan Hadoop anda.

Sediakan sumber data:

mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source

Gunakan Hadoop bersama dengan grep untuk mengeluarkan hasilnya:

hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'

Keluarannya mestilah:

    ...
    File System Counters
            FILE: Number of bytes read=1247812
            FILE: Number of bytes written=2336462
            FILE: Number of read operations=0
            FILE: Number of large read operations=0
            FILE: Number of write operations=0
    Map-Reduce Framework
            Map input records=2
            Map output records=2
            Map output bytes=37
            Map output materialized bytes=47
            Input split bytes=117
            Combine input records=0
            Combine output records=0
            Reduce input groups=2
            Reduce shuffle bytes=47
            Reduce input records=2
            Reduce output records=2
            Spilled Records=4
            Shuffled Maps =1
            Failed Shuffles=0
            Merged Map outputs=1
            GC time elapsed (ms)=24
            Total committed heap usage (bytes)=262758400
    Shuffle Errors
            BAD_ID=0
            CONNECTION=0
            IO_ERROR=0
            WRONG_LENGTH=0
            WRONG_MAP=0
            WRONG_REDUCE=0
    File Input Format Counters
            Bytes Read=151
    File Output Format Counters
            Bytes Written=37

Akhirnya, anda dapat melihat kandungan fail output:

cat ~/output/*

Hasilnya mestilah:

6       principal
1       principal.

Anda sekarang sudah bersedia untuk meneroka Hadoop.



Leave a Comment

Pandangan tentang 26 Teknik Analisis Data Besar: Bahagian 1

Pandangan tentang 26 Teknik Analisis Data Besar: Bahagian 1

Pandangan tentang 26 Teknik Analisis Data Besar: Bahagian 1

6 Perkara Yang Sangat Menggila Tentang Nintendo Switch

6 Perkara Yang Sangat Menggila Tentang Nintendo Switch

Ramai daripada anda tahu Switch akan keluar pada Mac 2017 dan ciri baharunya. Bagi yang tidak tahu, kami telah menyediakan senarai ciri yang menjadikan 'Tukar' sebagai 'gajet yang mesti ada'.

Janji Teknologi Yang Masih Tidak Ditepati

Janji Teknologi Yang Masih Tidak Ditepati

Adakah anda menunggu gergasi teknologi memenuhi janji mereka? semak apa yang masih belum dihantar.

Fungsi Lapisan Seni Bina Rujukan Data Besar

Fungsi Lapisan Seni Bina Rujukan Data Besar

Baca blog untuk mengetahui lapisan berbeza dalam Seni Bina Data Besar dan fungsinya dengan cara yang paling mudah.

Bagaimana AI Boleh Mengambil Automasi Proses ke Tahap Seterusnya?

Bagaimana AI Boleh Mengambil Automasi Proses ke Tahap Seterusnya?

Baca ini untuk mengetahui cara Kecerdasan Buatan semakin popular di kalangan syarikat berskala kecil dan cara ia meningkatkan kebarangkalian untuk menjadikan mereka berkembang dan memberikan pesaing mereka kelebihan.

CAPTCHA: Berapa Lama Ia Boleh Kekal Sebagai Teknik Berdaya maju Untuk Perbezaan Manusia-AI?

CAPTCHA: Berapa Lama Ia Boleh Kekal Sebagai Teknik Berdaya maju Untuk Perbezaan Manusia-AI?

CAPTCHA telah menjadi agak sukar untuk diselesaikan oleh pengguna dalam beberapa tahun kebelakangan ini. Adakah ia dapat kekal berkesan dalam pengesanan spam dan bot pada masa hadapan?

Keunikan Teknologi: Masa Depan Tamadun Manusia yang Jauh?

Keunikan Teknologi: Masa Depan Tamadun Manusia yang Jauh?

Apabila Sains Berkembang pada kadar yang pantas, mengambil alih banyak usaha kita, risiko untuk menundukkan diri kita kepada Ketunggalan yang tidak dapat dijelaskan juga meningkat. Baca, apakah makna ketunggalan bagi kita.

Teleperubatan Dan Penjagaan Kesihatan Jauh: Masa Depan Ada Di Sini

Teleperubatan Dan Penjagaan Kesihatan Jauh: Masa Depan Ada Di Sini

Apakah teleperubatan, penjagaan kesihatan jauh dan impaknya kepada generasi akan datang? Adakah ia tempat yang baik atau tidak dalam situasi pandemik? Baca blog untuk mencari paparan!

Pernahkah Anda Terfikir Bagaimana Penggodam Mendapatkan Wang?

Pernahkah Anda Terfikir Bagaimana Penggodam Mendapatkan Wang?

Anda mungkin pernah mendengar bahawa penggodam memperoleh banyak wang, tetapi pernahkah anda terfikir bagaimana mereka memperoleh wang seperti itu? Mari berbincang.

Kemas Kini Tambahan macOS Catalina 10.15.4 Menyebabkan Lebih Banyak Isu Daripada Penyelesaian

Kemas Kini Tambahan macOS Catalina 10.15.4 Menyebabkan Lebih Banyak Isu Daripada Penyelesaian

Baru-baru ini Apple mengeluarkan macOS Catalina 10.15.4 kemas kini tambahan untuk menyelesaikan masalah tetapi nampaknya kemas kini itu menyebabkan lebih banyak masalah yang membawa kepada pemusnahan mesin mac. Baca artikel ini untuk mengetahui lebih lanjut