Com instal·lar i configurar Apache Spark a Ubuntu/Debian
Apache Spark és un marc computacional distribuït de codi obert que es crea per proporcionar resultats computacionals més ràpids. És un motor computacional en memòria, és a dir, les dades es processaran a la memòria.
Spark admet diverses API per a streaming, processament de gràfics, SQL i MLLib. També és compatible amb Java, Python, Scala i R com a llenguatges preferits. Spark s'instal·la principalment als clústers Hadoop, però també podeu instal·lar i configurar Spark en mode autònom.
En aquest article, veurem com instal·lar Apache Spark a les distribucions basades en Debian i Ubuntu.
Instal·leu Java i Scala a Ubuntu
Per instal·lar Apache Spark a Ubuntu, heu de tenir Java i Scala instal·lats a la vostra màquina. La majoria de les distribucions modernes vénen amb Java instal·lat per defecte i podeu verificar-ho mitjançant l'ordre següent.
$ java -version
Si no hi ha sortida, podeu instal·lar Java utilitzant el nostre article sobre com instal·lar Java a Ubuntu o simplement executar les ordres següents per instal·lar Java a Ubuntu i distribucions basades en Debian.
$ sudo apt update $ sudo apt install default-jre $ java -version
A continuació, podeu instal·lar Scala des del dipòsit d'apt executant les ordres següents per cercar Scala i instal·lar-lo.
$ sudo apt search scala ⇒ Search for the package $ sudo apt install scala ⇒ Install the package
Per verificar la instal·lació de Scala, executeu l'ordre següent.
$ scala -version Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL
Instal·leu Apache Spark a Ubuntu
Ara aneu a l'ordre oficial wget per descarregar el fitxer directament al terminal.
$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz
Ara obriu el vostre terminal i canvieu a on es troba el fitxer descarregat i executeu l'ordre següent per extreure el fitxer tar d'Apache Spark.
$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz
Finalment, moveu el directori Spark extret al directori /opt.
$ sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark
Configura variables ambientals per a Spark
Ara heu d'establir unes quantes variables ambientals al vostre fitxer .profile abans d'engegar l'espurna.
$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile $ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile $ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile
Per assegurar-vos que aquestes noves variables d'entorn són accessibles a l'intèrpret d'ordres i disponibles per a Apache Spark, també és obligatori executar l'ordre següent per fer efectius els canvis recents.
$ source ~/.profile
Tots els binaris relacionats amb l'espurna per iniciar i aturar els serveis es troben a la carpeta sbin.
$ ls -l /opt/spark
Inicieu Apache Spark a Ubuntu
Executeu l'ordre següent per iniciar el servei mestre Spark i el servei esclau.
$ start-master.sh $ start-workers.sh spark://localhost:7077
Un cop iniciat el servei, aneu al navegador i escriviu la següent pàgina d'accés a l'URL. Des de la pàgina, podeu veure que el meu servei mestre i esclau està iniciat.
http://localhost:8080/ OR http://127.0.0.1:8080
També podeu comprovar si spark-shell funciona bé llançant l'ordre spark-shell.
$ spark-shell
Això és tot per aquest article. T'atraparem amb un altre article interessant molt aviat.