Com instal·lar i configurar Apache Spark a Ubuntu/Debian


Apache Spark és un marc computacional distribuït de codi obert que es crea per proporcionar resultats computacionals més ràpids. És un motor computacional en memòria, és a dir, les dades es processaran a la memòria.

Spark admet diverses API per a streaming, processament de gràfics, SQL i MLLib. També és compatible amb Java, Python, Scala i R com a llenguatges preferits. Spark s'instal·la principalment als clústers Hadoop, però també podeu instal·lar i configurar Spark en mode autònom.

En aquest article, veurem com instal·lar Apache Spark a les distribucions basades en Debian i Ubuntu.

Instal·leu Java i Scala a Ubuntu

Per instal·lar Apache Spark a Ubuntu, heu de tenir Java i Scala instal·lats a la vostra màquina. La majoria de les distribucions modernes vénen amb Java instal·lat per defecte i podeu verificar-ho mitjançant l'ordre següent.

$ java -version

Si no hi ha sortida, podeu instal·lar Java utilitzant el nostre article sobre com instal·lar Java a Ubuntu o simplement executar les ordres següents per instal·lar Java a Ubuntu i distribucions basades en Debian.

$ sudo apt update
$ sudo apt install default-jre
$ java -version

A continuació, podeu instal·lar Scala des del dipòsit d'apt executant les ordres següents per cercar Scala i instal·lar-lo.

$ sudo apt search scala  ⇒ Search for the package
$ sudo apt install scala ⇒ Install the package

Per verificar la instal·lació de Scala, executeu l'ordre següent.

$ scala -version 

Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

Instal·leu Apache Spark a Ubuntu

Ara aneu a l'ordre oficial wget per descarregar el fitxer directament al terminal.

$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

Ara obriu el vostre terminal i canvieu a on es troba el fitxer descarregat i executeu l'ordre següent per extreure el fitxer tar d'Apache Spark.

$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz

Finalment, moveu el directori Spark extret al directori /opt.

$ sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark

Configura variables ambientals per a Spark

Ara heu d'establir unes quantes variables ambientals al vostre fitxer .profile abans d'engegar l'espurna.

$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile
$ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
$ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Per assegurar-vos que aquestes noves variables d'entorn són accessibles a l'intèrpret d'ordres i disponibles per a Apache Spark, també és obligatori executar l'ordre següent per fer efectius els canvis recents.

$ source ~/.profile

Tots els binaris relacionats amb l'espurna per iniciar i aturar els serveis es troben a la carpeta sbin.

$ ls -l /opt/spark

Inicieu Apache Spark a Ubuntu

Executeu l'ordre següent per iniciar el servei mestre Spark i el servei esclau.

$ start-master.sh
$ start-workers.sh spark://localhost:7077

Un cop iniciat el servei, aneu al navegador i escriviu la següent pàgina d'accés a l'URL. Des de la pàgina, podeu veure que el meu servei mestre i esclau està iniciat.

http://localhost:8080/
OR
http://127.0.0.1:8080

També podeu comprovar si spark-shell funciona bé llançant l'ordre spark-shell.

$ spark-shell

Això és tot per aquest article. T'atraparem amb un altre article interessant molt aviat.