Com instal·lar i configurar Apache Hadoop en un sol node a CentOS 7

Apache Hadoop és una construcció de marc de codi obert per a l'emmagatzematge i processament de dades de Big Data distribuïts entre clústers d'ordinadors. El projecte es basa en els següents components:

Hadoop Common: conté les biblioteques i les utilitats Java necessàries per a altres mòduls Hadoop.
HDFS: sistema de fitxers distribuït Hadoop: un sistema de fitxers escalable basat en Java distribuït en diversos nodes.
MapReduce: marc YARN per al processament paral·lel de grans dades.
Hadoop YARN: un marc per a la gestió de recursos de clúster.

Aquest article us guiarà sobre com podeu instal·lar Apache Hadoop en un sol clúster de nodes a CentOS 7 (també funciona per a les versions RHEL 7 i Fedora 23+). Aquest tipus de configuració també es fa referència com a mode pseudo-distribuït de Hadoop.

Pas 1: instal·leu Java a CentOS 7

1. Abans de continuar amb la instal·lació de Java, primer inicieu sessió amb un usuari root o un usuari amb privilegis root, configureu el nom d'amfitrió de la vostra màquina amb l'ordre següent.

# hostnamectl set-hostname master

A més, afegiu un registre nou al fitxer hosts amb la vostra pròpia màquina FQDN per apuntar a l'adreça IP del vostre sistema.

# vi /etc/hosts

Afegeix la línia següent:

192.168.1.41 master.hadoop.lan

Substituïu el nom d'amfitrió i els registres FQDN anteriors per la vostra pròpia configuració.

2. A continuació, aneu a la pàgina de descàrrega d'Oracle Java i agafeu la darrera versió de Java SE Development Kit 8 al vostre sistema amb l'ajuda de l'ordre curl:

# curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”

3. Quan finalitzi la descàrrega binària de Java, instal·leu el paquet emetent l'ordre següent:

# rpm -Uvh jdk-8u92-linux-x64.rpm

Pas 2: instal·leu Hadoop Framework a CentOS 7

4. A continuació, creeu un compte d'usuari nou al vostre sistema sense poders d'arrel que l'utilitzarem per a la ruta d'instal·lació i l'entorn de treball de Hadoop. El directori inicial del compte nou residirà al directori /opt/hadoop.

# useradd -d /opt/hadoop hadoop
# passwd hadoop

5. Al següent pas, visiteu la pàgina d'Apache Hadoop per obtenir l'enllaç de la darrera versió estable i descarregar l'arxiu al vostre sistema.

# curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz

6. Extraieu l'arxiu i copieu el contingut del directori a la ruta inicial del compte Hadoop. A més, assegureu-vos de canviar els permisos dels fitxers copiats en conseqüència.

#  tar xfz hadoop-2.7.2.tar.gz
# cp -rf hadoop-2.7.2/* /opt/hadoop/
# chown -R hadoop:hadoop /opt/hadoop/

7. A continuació, inicieu sessió amb l'usuari d'hadoop i configureu les variables d'entorn Hadoop i Java al vostre sistema editant el fitxer .bash_profile.

# su - hadoop
$ vi .bash_profile

Afegiu les línies següents al final del fitxer:

## JAVA env variables
export JAVA_HOME=/usr/java/default
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar

## HADOOP env variables
export HADOOP_HOME=/opt/hadoop
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

8. Ara, inicialitzeu les variables d'entorn i comproveu-ne l'estat emetent les ordres següents:

$ source .bash_profile
$ echo $HADOOP_HOME
$ echo $JAVA_HOME

9. Finalment, configureu l'autenticació basada en clau ssh per al compte d'hadoop executant les ordres següents (substituïu el nom d'amfitrió o FQDN per l'ordre ssh-copy-id en conseqüència).

A més, deixeu la frase de contrasenya en blanc per iniciar sessió automàticament mitjançant ssh.

$ ssh-keygen -t rsa
$ ssh-copy-id master.hadoop.lan