Com instal·lar i configurar Apache Hadoop en un sol node a CentOS 7
Apache Hadoop és una construcció de marc de codi obert per a l'emmagatzematge i processament de dades de Big Data distribuïts entre clústers d'ordinadors. El projecte es basa en els següents components:
- Hadoop Common: conté les biblioteques i les utilitats Java necessàries per a altres mòduls Hadoop.
- HDFS: sistema de fitxers distribuït Hadoop: un sistema de fitxers escalable basat en Java distribuït en diversos nodes.
- MapReduce: marc YARN per al processament paral·lel de grans dades.
- Hadoop YARN: un marc per a la gestió de recursos de clúster.
Aquest article us guiarà sobre com podeu instal·lar Apache Hadoop en un sol clúster de nodes a CentOS 7 (també funciona per a les versions RHEL 7 i Fedora 23+). Aquest tipus de configuració també es fa referència com a mode pseudo-distribuït de Hadoop.
Pas 1: instal·leu Java a CentOS 7
1. Abans de continuar amb la instal·lació de Java, primer inicieu sessió amb un usuari root o un usuari amb privilegis root, configureu el nom d'amfitrió de la vostra màquina amb l'ordre següent.
# hostnamectl set-hostname master
A més, afegiu un registre nou al fitxer hosts amb la vostra pròpia màquina FQDN per apuntar a l'adreça IP del vostre sistema.
# vi /etc/hosts
Afegeix la línia següent:
192.168.1.41 master.hadoop.lan
Substituïu el nom d'amfitrió i els registres FQDN anteriors per la vostra pròpia configuració.
2. A continuació, aneu a la pàgina de descàrrega d'Oracle Java i agafeu la darrera versió de Java SE Development Kit 8 al vostre sistema amb l'ajuda de l'ordre curl:
# curl -LO -H "Cookie: oraclelicense=accept-securebackup-cookie" “http://download.oracle.com/otn-pub/java/jdk/8u92-b14/jdk-8u92-linux-x64.rpm”
3. Quan finalitzi la descàrrega binària de Java, instal·leu el paquet emetent l'ordre següent:
# rpm -Uvh jdk-8u92-linux-x64.rpm
Pas 2: instal·leu Hadoop Framework a CentOS 7
4. A continuació, creeu un compte d'usuari nou al vostre sistema sense poders d'arrel que l'utilitzarem per a la ruta d'instal·lació i l'entorn de treball de Hadoop. El directori inicial del compte nou residirà al directori /opt/hadoop
.
# useradd -d /opt/hadoop hadoop # passwd hadoop
5. Al següent pas, visiteu la pàgina d'Apache Hadoop per obtenir l'enllaç de la darrera versió estable i descarregar l'arxiu al vostre sistema.
# curl -O http://apache.javapipe.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz
6. Extraieu l'arxiu i copieu el contingut del directori a la ruta inicial del compte Hadoop. A més, assegureu-vos de canviar els permisos dels fitxers copiats en conseqüència.
# tar xfz hadoop-2.7.2.tar.gz # cp -rf hadoop-2.7.2/* /opt/hadoop/ # chown -R hadoop:hadoop /opt/hadoop/
7. A continuació, inicieu sessió amb l'usuari d'hadoop i configureu les variables d'entorn Hadoop i Java al vostre sistema editant el fitxer .bash_profile
.
# su - hadoop $ vi .bash_profile
Afegiu les línies següents al final del fitxer:
## JAVA env variables export JAVA_HOME=/usr/java/default export PATH=$PATH:$JAVA_HOME/bin export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar ## HADOOP env variables export HADOOP_HOME=/opt/hadoop export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_YARN_HOME=$HADOOP_HOME export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native" export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
8. Ara, inicialitzeu les variables d'entorn i comproveu-ne l'estat emetent les ordres següents:
$ source .bash_profile $ echo $HADOOP_HOME $ echo $JAVA_HOME
9. Finalment, configureu l'autenticació basada en clau ssh per al compte d'hadoop executant les ordres següents (substituïu el nom d'amfitrió o FQDN per l'ordre ssh-copy-id
en conseqüència).
A més, deixeu la frase de contrasenya en blanc per iniciar sessió automàticament mitjançant ssh.
$ ssh-keygen -t rsa $ ssh-copy-id master.hadoop.lan