Pandangan tentang 26 Teknik Analisis Data Besar: Bahagian 1
Pandangan tentang 26 Teknik Analisis Data Besar: Bahagian 1
Apache Hadoop adalah alat pemprosesan Big Source sumber terbuka, yang banyak digunakan dalam industri IT.
Bergantung pada ukuran, jenis, dan skala data anda, Anda dapat menerapkan Hadoop dalam mod berdiri sendiri atau kluster.
Dalam tutorial yang berfokus pada pemula ini, kami akan memasang Hadoop dalam mod yang berdiri sendiri pada contoh pelayan CentOS 7.
Log masuk sebagai pengguna sudo, dan kemudian kemas kini sistem CentOS 7 ke status stabil terkini:
sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now
Setelah pelayan dalam talian, log masuk semula.
Hadoop berasaskan Java dan OpenJDK 8 adalah versi yang disyorkan untuk versi stabil terbaru.
Pasang OpenJDK 8 JRE menggunakan YUM:
sudo yum install -y java-1.8.0-openjdk
Sahkan pemasangan OpenJDK 8 JRE:
java -version
Keluarannya harus menyerupai:
openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)
Anda sentiasa dapat mencari URL muat turun Hadoop versi terkini dari halaman pelepasan rasmi Apache Hadoop . Pada masa penulisan artikel ini, Hadoop versi stabil terkini adalah 2.7.3.
Muat turun arkib binari Hadoop 2.7.3:
cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
Muat turun fail checksum yang sepadan:
wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds
Pasang alat checksum:
sudo yum install perl-Digest-SHA
Hitung nilai SHA256 arkib Hadoop:
shasum -a 256 hadoop-2.7.3.tar.gz
Paparkan kandungan fail hadoop-2.7.3.tar.gz.mds
, dan pastikan dua nilai SHA256 adalah sama:
cat hadoop-2.7.3.tar.gz.mds
Buka zip dari arkib ke lokasi yang ditentukan:
sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt
Sebelum anda dapat menjalankan Hadoop dengan betul, anda perlu menentukan lokasi rumah Java untuknya.
Buka fail konfigurasi persekitaran Hadoop /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh
menggunakan vi
atau penyunting teks kegemaran anda:
sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh
Cari baris:
export JAVA_HOME=$
Gantikan dengan:
export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")
Pengaturan ini akan menjadikan Hadoop selalu menggunakan lokasi pemasangan lalai Java.
Simpan dan tutup:
:wq!
Anda boleh menambahkan jalan program Hadoop ke PATH
pemboleh ubah persekitaran untuk kemudahan anda:
echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile
Cukup jalankan perintah hadoop
, dan anda akan diminta dengan penggunaan perintah hadoop dan berbagai parameternya.
Di sini, anda boleh menggunakan contoh terbina dalam untuk menguji pemasangan Hadoop anda.
Sediakan sumber data:
mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source
Gunakan Hadoop bersama dengan grep untuk mengeluarkan hasilnya:
hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'
Keluarannya mestilah:
...
File System Counters
FILE: Number of bytes read=1247812
FILE: Number of bytes written=2336462
FILE: Number of read operations=0
FILE: Number of large read operations=0
FILE: Number of write operations=0
Map-Reduce Framework
Map input records=2
Map output records=2
Map output bytes=37
Map output materialized bytes=47
Input split bytes=117
Combine input records=0
Combine output records=0
Reduce input groups=2
Reduce shuffle bytes=47
Reduce input records=2
Reduce output records=2
Spilled Records=4
Shuffled Maps =1
Failed Shuffles=0
Merged Map outputs=1
GC time elapsed (ms)=24
Total committed heap usage (bytes)=262758400
Shuffle Errors
BAD_ID=0
CONNECTION=0
IO_ERROR=0
WRONG_LENGTH=0
WRONG_MAP=0
WRONG_REDUCE=0
File Input Format Counters
Bytes Read=151
File Output Format Counters
Bytes Written=37
Akhirnya, anda dapat melihat kandungan fail output:
cat ~/output/*
Hasilnya mestilah:
6 principal
1 principal.
Anda sekarang sudah bersedia untuk meneroka Hadoop.
Pandangan tentang 26 Teknik Analisis Data Besar: Bahagian 1
Ramai daripada anda tahu Switch akan keluar pada Mac 2017 dan ciri baharunya. Bagi yang tidak tahu, kami telah menyediakan senarai ciri yang menjadikan 'Tukar' sebagai 'gajet yang mesti ada'.
Adakah anda menunggu gergasi teknologi memenuhi janji mereka? semak apa yang masih belum dihantar.
Baca blog untuk mengetahui lapisan berbeza dalam Seni Bina Data Besar dan fungsinya dengan cara yang paling mudah.
Baca ini untuk mengetahui cara Kecerdasan Buatan semakin popular di kalangan syarikat berskala kecil dan cara ia meningkatkan kebarangkalian untuk menjadikan mereka berkembang dan memberikan pesaing mereka kelebihan.
CAPTCHA telah menjadi agak sukar untuk diselesaikan oleh pengguna dalam beberapa tahun kebelakangan ini. Adakah ia dapat kekal berkesan dalam pengesanan spam dan bot pada masa hadapan?
Apabila Sains Berkembang pada kadar yang pantas, mengambil alih banyak usaha kita, risiko untuk menundukkan diri kita kepada Ketunggalan yang tidak dapat dijelaskan juga meningkat. Baca, apakah makna ketunggalan bagi kita.
Apakah teleperubatan, penjagaan kesihatan jauh dan impaknya kepada generasi akan datang? Adakah ia tempat yang baik atau tidak dalam situasi pandemik? Baca blog untuk mencari paparan!
Anda mungkin pernah mendengar bahawa penggodam memperoleh banyak wang, tetapi pernahkah anda terfikir bagaimana mereka memperoleh wang seperti itu? Mari berbincang.
Baru-baru ini Apple mengeluarkan macOS Catalina 10.15.4 kemas kini tambahan untuk menyelesaikan masalah tetapi nampaknya kemas kini itu menyebabkan lebih banyak masalah yang membawa kepada pemusnahan mesin mac. Baca artikel ini untuk mengetahui lebih lanjut