In questo tutorial, ti mostreremo come installare Apache Spark su Ubuntu 20.04 LTS. Per chi non lo sapesse, Apache Spark è un sistema di cluster computing veloce e generico Fornisce API di alto livello in Java, Scala e Python e anche un motore ottimizzato che supporta i grafici di esecuzione complessivi Supporta anche un ricco set di strumenti di livello superiore tra cui Spark SQL per SQL ed elaborazione di informazioni strutturate, MLlib per macchina apprendimento, GraphX per l'elaborazione dei grafici e Spark Streaming.
Questo articolo presuppone che tu abbia almeno una conoscenza di base di Linux, sappia come usare la shell e, soprattutto, che ospiti il tuo sito sul tuo VPS. L'installazione è abbastanza semplice e presuppone che tu sono in esecuzione nell'account root, in caso contrario potrebbe essere necessario aggiungere 'sudo
' ai comandi per ottenere i privilegi di root. Ti mostrerò l'installazione passo passo di Apache Spark su un server 20.04 LTS (Focal Fossa). Puoi seguire le stesse istruzioni per Ubuntu 18.04, 16.04 e qualsiasi altra distribuzione basata su Debian come Linux Mint.
Prerequisiti
- Un server che esegue uno dei seguenti sistemi operativi:Ubuntu 20.04, 18.04, 16.04 e qualsiasi altra distribuzione basata su Debian come Linux Mint.
- Si consiglia di utilizzare una nuova installazione del sistema operativo per prevenire potenziali problemi.
- Un
non-root sudo user
o accedere all'root user
. Ti consigliamo di agire comenon-root sudo user
, tuttavia, poiché puoi danneggiare il tuo sistema se non stai attento quando agisci come root.
Installa Apache Spark su Ubuntu 20.04 LTS Focal Fossa
Passaggio 1. Innanzitutto, assicurati che tutti i pacchetti di sistema siano aggiornati eseguendo il seguente apt
comandi nel terminale.
sudo apt update sudo apt upgrade
Passaggio 2. Installazione di Java.
Apache Spark richiede Java per funzionare, assicuriamoci di avere Java installato sul nostro sistema Ubuntu:
sudo apt install default-jdk
Controlliamo la versione Java, dalla riga di comando di seguito:
java -version
Passaggio 3. Scarica e installa Apache Spark.
Scarica l'ultima versione di Apache Spark dalla pagina dei download:
wget https://www.apache.org/dyn/closer.lua/spark/spark-3.0.0/spark-3.0.0-bin-hadoop2.7.tgz tar xvzf spark-3.0.0-bin-hadoop2.7.tgz sudo mv spark-3.0.0-bin-hadoop2.7/ /opt/spark
Avanti, configurazione dell'ambiente Apache Spark:
nano ~/.bashrc
Successivamente, aggiungi queste righe alla fine del file .bashrc in modo che il percorso possa contenere il percorso del file eseguibile di Spark:
export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
Attiva le modifiche:
source ~/.bashrc
Passaggio 4. Avvia Spark Master Server autonomo.
Ora che hai completato la configurazione del tuo ambiente per Spark, puoi avviare un server master:
start-master.sh
Per visualizzare l'interfaccia utente di Spark Web, apri un browser Web e inserisci l'indirizzo IP localhost sulla porta 8080:
http://127.0.0.1:8080/
In questa configurazione standalone a server singolo, avvieremo un server slave insieme al server master. Il start-slave.sh
il comando viene utilizzato per avviare il processo di lavoro Spark:
start-slave.sh spark://ubuntu1:7077
Ora che un lavoratore è attivo e funzionante, se ricarichi l'interfaccia utente Web di Spark Master, dovresti vederlo nell'elenco:
Dopo, termina la configurazione e avvia il server master e slave, verifica se la shell Spark funziona:
spark-shell
Congratulazioni! Hai installato con successo Apache Spark. Grazie per aver utilizzato questo tutorial per l'installazione di Apache Spark sul sistema Ubuntu 20.04 (Focal Fossa). Per ulteriore aiuto o informazioni utili, ti consigliamo di controllare il Sito Web Apache Spark.