Изучение 26 методов анализа больших данных: часть 1
Изучение 26 методов анализа больших данных: часть 1
Apache Hadoop - это инструмент обработки больших данных с открытым исходным кодом, широко используемый в ИТ-индустрии.
В зависимости от размера, типа и масштаба ваших данных вы можете развернуть Hadoop в автономном или кластерном режиме.
В этом уроке для начинающих мы установим Hadoop в автономном режиме на экземпляр сервера CentOS 7.
Войдите в систему как пользователь sudo, а затем обновите систему CentOS 7 до последней стабильной версии:
sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now
Когда сервер подключен к сети, войдите снова.
Hadoop основан на Java, и OpenJDK 8 является рекомендуемой версией для последней стабильной версии.
Установите OpenJDK 8 JRE, используя YUM:
sudo yum install -y java-1.8.0-openjdk
Проверьте установку OpenJDK 8 JRE:
java -version
Вывод должен напоминать:
openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)
Вы всегда можете найти URL загрузки последней версии Hadoop на официальной странице релиза Apache Hadoop . На момент написания этой статьи последняя стабильная версия Hadoop была 2.7.3.
Загрузите бинарный архив Hadoop 2.7.3:
cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz
Загрузите соответствующий файл контрольной суммы:
wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds
Установите инструмент контрольной суммы:
sudo yum install perl-Digest-SHA
Рассчитайте значение SHA256 архива Hadoop:
shasum -a 256 hadoop-2.7.3.tar.gz
Отобразите содержимое файла hadoop-2.7.3.tar.gz.mdsи убедитесь, что два значения SHA256 идентичны:
cat hadoop-2.7.3.tar.gz.mds
Распакуйте архив в указанное место:
sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt
Прежде чем вы сможете правильно запустить Hadoop, вам нужно указать для него домашнее местоположение Java.
Откройте файл конфигурации среды Hadoop, /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.shиспользуя viваш любимый текстовый редактор:
sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh
Найдите строку:
export JAVA_HOME=$
Заменить его на:
export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")
Этот параметр заставит Hadoop всегда использовать расположение Java для установки по умолчанию.
Сохранить и выйти:
:wq!
PATHДля вашего удобства вы можете добавить путь к программе Hadoop в переменную окружения:
echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile
Просто выполните команду hadoop, и вам будет предложено использовать команду hadoop и ее различные параметры.
Здесь вы можете использовать встроенный пример для проверки вашей установки Hadoop.
Подготовьте источник данных:
mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source
Используйте Hadoop вместе с grep для вывода результата:
hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'
Выход должен быть:
...
File System Counters
FILE: Number of bytes read=1247812
FILE: Number of bytes written=2336462
FILE: Number of read operations=0
FILE: Number of large read operations=0
FILE: Number of write operations=0
Map-Reduce Framework
Map input records=2
Map output records=2
Map output bytes=37
Map output materialized bytes=47
Input split bytes=117
Combine input records=0
Combine output records=0
Reduce input groups=2
Reduce shuffle bytes=47
Reduce input records=2
Reduce output records=2
Spilled Records=4
Shuffled Maps =1
Failed Shuffles=0
Merged Map outputs=1
GC time elapsed (ms)=24
Total committed heap usage (bytes)=262758400
Shuffle Errors
BAD_ID=0
CONNECTION=0
IO_ERROR=0
WRONG_LENGTH=0
WRONG_MAP=0
WRONG_REDUCE=0
File Input Format Counters
Bytes Read=151
File Output Format Counters
Bytes Written=37
Наконец, вы можете просмотреть содержимое выходных файлов:
cat ~/output/*
Результат должен быть:
6 principal
1 principal.
Теперь вы готовы исследовать Hadoop.
Изучение 26 методов анализа больших данных: часть 1
Прочтите блог, чтобы узнать о различных уровнях архитектуры больших данных и их функциях самым простым способом.
Многие из вас знают Switch, который выйдет в марте 2017 года, и его новые функции. Для тех, кто не знает, мы подготовили список функций, которые делают «Switch» обязательным гаджетом.
Вы ждете, когда технологические гиганты выполнят свои обещания? проверить, что осталось недоставленным.
Прочтите это, чтобы узнать, как искусственный интеллект становится популярным среди небольших компаний и как он увеличивает вероятность их роста и дает преимущество перед конкурентами.
По мере того, как наука развивается быстрыми темпами, принимая на себя большую часть наших усилий, также возрастает риск подвергнуться необъяснимой сингулярности. Прочтите, что может значить для нас необычность.
CAPTCHA стало довольно сложно решать пользователям за последние несколько лет. Сможет ли он оставаться эффективным в обнаружении спама и ботов в ближайшем будущем?
Что такое телемедицина, дистанционное здравоохранение и их влияние на будущее поколение? Это хорошее место или нет в ситуации пандемии? Прочтите блог, чтобы узнать мнение!
Возможно, вы слышали, что хакеры зарабатывают много денег, но задумывались ли вы когда-нибудь о том, как они зарабатывают такие деньги? Давайте обсудим.
Недавно Apple выпустила macOS Catalina 10.15.4, дополнительное обновление для исправления проблем, но похоже, что это обновление вызывает больше проблем, приводящих к поломке компьютеров Mac. Прочтите эту статью, чтобы узнать больше