GNU/Linux >> Linux Esercitazione > >> Ubuntu

Installa e configura Apache Spark su Ubuntu 20.04

Apache Spark è un framework computazionale open source per dati analitici su larga scala e elaborazione di machine learning. Supporta vari linguaggi preferiti come scala, R, Python e Java. Fornisce strumenti di alto livello per lo spark streaming, GraphX per l'elaborazione di grafici, SQL, MLLib.

Qui a LinuxAPT, come parte dei nostri servizi di gestione del server, aiutiamo regolarmente i nostri clienti a eseguire query relative al sistema Linux.

In questo contesto, esamineremo come installare e configurare Apache Spark sul sistema Ubuntu 20.04 LTS.

Prima di installare Apache Spark devi installare Scala sul tuo sistema.

Come installare Scala su Ubuntu?

Se non hai installato Java e Scala puoi seguire la seguente procedura per installarlo.

Per Java, installeremo JDK 8 aperto oppure puoi installare la tua versione preferita eseguendo i comandi seguenti:

$ sudo apt update
$ sudo apt install openjdk-8-jdk

Se hai bisogno di verificare l'installazione di java puoi eseguire il seguente comando:

$ java -version

Come per Scala, scala è un linguaggio di programmazione orientato agli oggetti e funzionale che lo combina in un unico conciso. Scala è compatibile sia con il runtime javascript che con JVM e ti garantisce un facile accesso all'ecosistema di librerie di grandi dimensioni che aiuta nella creazione di sistemi ad alte prestazioni. Esegui il seguente comando apt per installare scala:

$ sudo apt update
$ sudo apt install scala

Ora, controlla la versione per verificare l'installazione:

$ scala -version

Come installare Apache Spark su Ubuntu?

Non esiste un repository apt ufficiale per installare apache-spark ma puoi precompilare il binario dal sito ufficiale. Utilizzare il comando wget e il collegamento seguenti per scaricare il file binario:

$ wget https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

Ora estrai il file binario scaricato usando il seguente comando tar:

$ tar -xzvf spark-3.1.2-bin-hadoop3.2.tgz

Infine, sposta i file spark estratti nella directory /opt:

$ sudo mv spark-3.1.2-bin-hadoop3.2 /opt/spark

Come configurare le variabili d'ambiente Apache Spark?

La tua variabile di percorso per spark nel tuo .profile nel file necessario per impostare affinché il comando funzioni senza un percorso completo, puoi farlo usando il comando echo o farlo manualmente usando un editor di testo preferibile. Per un modo più semplice esegui il seguente comando echo:

$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile
$ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
$ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Noterai che la variabile del percorso viene aggiunta in fondo al file .profile usando l'eco con>> operazione.

Ora, esegui il comando seguente per applicare le nuove modifiche alle variabili di ambiente:

$ source ~/.profile

Come distribuire Apache Spark dopo l'installazione e la configurazione?

Ora, abbiamo impostato tutto ciò che possiamo eseguire sia il servizio principale che il servizio di lavoro utilizzando il seguente comando:

$ start-master.sh

Vedrai che il servizio spark master è in esecuzione sulla porta 8080. Se sfogli il localhost sulla porta 8080 che è la porta predefinita di spark. È possibile che si verifichi il seguente tipo di interfaccia utente durante la navigazione nell'URL. Potresti non trovare alcun processore di lavoro in esecuzione avviando solo il servizio master. Quando avvii il servizio worker troverai un nuovo nodo elencato.

Quando apri la pagina master nel browser, puoi vedere spark master spark://HOST:URL PORTA che viene utilizzato per connettere i servizi di lavoro tramite questo host. Per il mio host attuale il mio URL spark master è spark://Linuxapt.localdomain:7077 quindi è necessario eseguire il comando nel modo seguente per avviare il processo di lavoro:

$ start-workers.sh <spark-master-url>

Per eseguire il comando seguente per eseguire i servizi di lavoro:

$ start-workers.sh spark://Linuxapt.localdomain:7077

Inoltre, puoi usare spark-shell eseguendo il comando seguente:

$ spark-shell

Gestisci programmi di avvio su Ubuntu 20.04 - Il modo giusto?

Installa ROS Noetic su Linux Mint 20 - Una guida passo passo?

Ubuntu

Installa e configura Fail2ban su Ubuntu 20.04

Come installare e configurare Apache Kafka su Ubuntu 20.04

Come installare e configurare Apache Spark su Ubuntu 20.04

Come installare e configurare Apache Web Server su Ubuntu

Come installare e configurare Apache Spark su Ubuntu 21.04

Come installare e configurare Apache Spark su Ubuntu/Debian