Как установить Hadoop в автономном режиме на CentOS 7

Предпосылки
Шаг 1: Обновите систему
Шаг 2. Установите Java
Шаг 3: Установите Hadoop
Шаг 4: Запустите и протестируйте Hadoop

Apache Hadoop - это инструмент обработки больших данных с открытым исходным кодом, широко используемый в ИТ-индустрии.

В зависимости от размера, типа и масштаба ваших данных вы можете развернуть Hadoop в автономном или кластерном режиме.

В этом уроке для начинающих мы установим Hadoop в автономном режиме на экземпляр сервера CentOS 7.

Предпосылки

Недавно созданный экземпляр сервера Vultr CentOS 7 x64.
Пользователь Sudo .

Шаг 1: Обновите систему

Войдите в систему как пользователь sudo, а затем обновите систему CentOS 7 до последней стабильной версии:

sudo yum install epel-release -y
sudo yum update -y
sudo shutdown -r now

Когда сервер подключен к сети, войдите снова.

Шаг 2. Установите Java

Hadoop основан на Java, и OpenJDK 8 является рекомендуемой версией для последней стабильной версии.

Установите OpenJDK 8 JRE, используя YUM:

sudo yum install -y java-1.8.0-openjdk

Проверьте установку OpenJDK 8 JRE:

java -version

Вывод должен напоминать:

openjdk version "1.8.0_111"
OpenJDK Runtime Environment (build 1.8.0_111-b15)
OpenJDK 64-Bit Server VM (build 25.111-b15, mixed mode)

Шаг 3: Установите Hadoop

Вы всегда можете найти URL загрузки последней версии Hadoop на официальной странице релиза Apache Hadoop . На момент написания этой статьи последняя стабильная версия Hadoop была 2.7.3.

Загрузите бинарный архив Hadoop 2.7.3:

cd
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz

Загрузите соответствующий файл контрольной суммы:

wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz.mds

Установите инструмент контрольной суммы:

sudo yum install perl-Digest-SHA

Рассчитайте значение SHA256 архива Hadoop:

shasum -a 256 hadoop-2.7.3.tar.gz

Отобразите содержимое файла hadoop-2.7.3.tar.gz.mdsи убедитесь, что два значения SHA256 идентичны:

cat hadoop-2.7.3.tar.gz.mds

Распакуйте архив в указанное место:

sudo tar -zxvf hadoop-2.7.3.tar.gz -C /opt

Прежде чем вы сможете правильно запустить Hadoop, вам нужно указать для него домашнее местоположение Java.

Откройте файл конфигурации среды Hadoop, /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.shиспользуя viваш любимый текстовый редактор:

sudo vi /opt/hadoop-2.7.3/etc/hadoop/hadoop-env.sh

Найдите строку:

export JAVA_HOME=$

Заменить его на:

export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")

Этот параметр заставит Hadoop всегда использовать расположение Java для установки по умолчанию.

Сохранить и выйти:

:wq!

PATHДля вашего удобства вы можете добавить путь к программе Hadoop в переменную окружения:

echo "export PATH=/opt/hadoop-2.7.3/bin:$PATH" | sudo tee -a /etc/profile
source /etc/profile

Шаг 4: Запустите и протестируйте Hadoop

Просто выполните команду hadoop, и вам будет предложено использовать команду hadoop и ее различные параметры.

Здесь вы можете использовать встроенный пример для проверки вашей установки Hadoop.

Подготовьте источник данных:

mkdir ~/source
cp /opt/hadoop-2.7.3/etc/hadoop/*.xml ~/source

Используйте Hadoop вместе с grep для вывода результата:

hadoop jar /opt/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar grep ~/source ~/output 'principal[.]*'

Выход должен быть:

    ...
    File System Counters
            FILE: Number of bytes read=1247812
            FILE: Number of bytes written=2336462
            FILE: Number of read operations=0
            FILE: Number of large read operations=0
            FILE: Number of write operations=0
    Map-Reduce Framework
            Map input records=2
            Map output records=2
            Map output bytes=37
            Map output materialized bytes=47
            Input split bytes=117
            Combine input records=0
            Combine output records=0
            Reduce input groups=2
            Reduce shuffle bytes=47
            Reduce input records=2
            Reduce output records=2
            Spilled Records=4
            Shuffled Maps =1
            Failed Shuffles=0
            Merged Map outputs=1
            GC time elapsed (ms)=24
            Total committed heap usage (bytes)=262758400
    Shuffle Errors
            BAD_ID=0
            CONNECTION=0
            IO_ERROR=0
            WRONG_LENGTH=0
            WRONG_MAP=0
            WRONG_REDUCE=0
    File Input Format Counters
            Bytes Read=151
    File Output Format Counters
            Bytes Written=37

Наконец, вы можете просмотреть содержимое выходных файлов:

cat ~/output/*

Результат должен быть:

6       principal
1       principal.

Теперь вы готовы исследовать Hadoop.

Оставить комментарий

Изучение 26 методов анализа больших данных: часть 1

Функциональные возможности уровней эталонной архитектуры больших данных

Прочтите блог, чтобы узнать о различных уровнях архитектуры больших данных и их функциях самым простым способом.

6 невероятных фактов о Nintendo Switch

Многие из вас знают Switch, который выйдет в марте 2017 года, и его новые функции. Для тех, кто не знает, мы подготовили список функций, которые делают «Switch» обязательным гаджетом.

Технические обещания, которые все еще не выполнены

Вы ждете, когда технологические гиганты выполнят свои обещания? проверить, что осталось недоставленным.

Как ИИ может вывести автоматизацию процессов на новый уровень?

Прочтите это, чтобы узнать, как искусственный интеллект становится популярным среди небольших компаний и как он увеличивает вероятность их роста и дает преимущество перед конкурентами.

Технологическая сингулярность: далекое будущее человеческой цивилизации?

По мере того, как наука развивается быстрыми темпами, принимая на себя большую часть наших усилий, также возрастает риск подвергнуться необъяснимой сингулярности. Прочтите, что может значить для нас необычность.

CAPTCHA: как долго она может оставаться жизнеспособным методом различения между человеком и ИИ?

CAPTCHA стало довольно сложно решать пользователям за последние несколько лет. Сможет ли он оставаться эффективным в обнаружении спама и ботов в ближайшем будущем?

Телемедицина и удаленное здравоохранение: будущее уже здесь

Что такое телемедицина, дистанционное здравоохранение и их влияние на будущее поколение? Это хорошее место или нет в ситуации пандемии? Прочтите блог, чтобы узнать мнение!

Вы когда-нибудь задумывались, как хакеры зарабатывают деньги?

Возможно, вы слышали, что хакеры зарабатывают много денег, но задумывались ли вы когда-нибудь о том, как они зарабатывают такие деньги? Давайте обсудим.

Обновление дополнения к macOS Catalina 10.15.4 вызывает больше проблем, чем решает

Недавно Apple выпустила macOS Catalina 10.15.4, дополнительное обновление для исправления проблем, но похоже, что это обновление вызывает больше проблем, приводящих к поломке компьютеров Mac. Прочтите эту статью, чтобы узнать больше