In questo articolo, avremo spiegato i passaggi necessari per installare e configurare Hadoop su Ubuntu 18.04 LTS. Prima di continuare con questo tutorial, assicurati di aver effettuato l'accesso come utente con privilegi sudo. Tutti i comandi in questo tutorial devono essere eseguiti come utente non root.
La libreria software Apache Hadoop è un framework che consente l'elaborazione distribuita di grandi set di dati su cluster di computer utilizzando semplici modelli di programmazione. È progettato per scalare da server singoli a migliaia di macchine, ognuna delle quali offre elaborazione e archiviazione locali. Piuttosto che fare affidamento sull'hardware per fornire un'elevata disponibilità, la libreria stessa è progettata per rilevare e gestire i guasti a livello dell'applicazione, offrendo così un servizio altamente disponibile su un cluster di computer, ognuno dei quali può essere soggetto a guasti.
Installa Hadoop su Ubuntu
Passaggio 1. Innanzitutto, prima di iniziare a installare qualsiasi pacchetto sul tuo server Ubuntu, ti consigliamo sempre di assicurarti che tutti i pacchetti di sistema siano aggiornati.
sudo apt update sudo apt upgrade
Passaggio 2. Installa Java.
Dobbiamo installare Java sulla macchina poiché Java è il prerequisito principale per eseguire Hadoop. Java 6 e versioni successive sono supportate per Hadoop. Installiamo Java 8 per questa lezione:
sudo apt install openjdk-8-jdk-headless
Verifica che java sia installato correttamente:
java -version
Passaggio 3. Installazione di Hadoop su Ubuntu 18.04.
Scarichiamo i file di installazione di Hadoop in modo da poter lavorare anche sulla sua configurazione:
mkdir jd-hadoop && cd jd-hadoop wget http://mirror.cc.columbia.edu/pub/software/apache/hadoop/common/hadoop-3.2.0/hadoop-3.2.0.tar.gz
Una volta scaricato il file, esegui il seguente comando per decomprimere il file:
tar xvzf hadoop-3.2.0.tar.gz
Passaggio 4. Aggiunta dell'account utente Hadoop.
Creeremo un utente Hadoop separato sulla nostra macchina per mantenere HDFS separato dal nostro file system originale. Possiamo prima creare un gruppo di utenti sulla nostra macchina:
addgroup hadoop
Ora possiamo aggiungere un nuovo utente a questo gruppo:
useradd -G hadoop hadoopuser
Infine, forniremo l'accesso come root all'utente jdhadoopuser. Per fare ciò, apri il file /etc/sudoers con questo comando:
sudo visudo
Ora, inserisci questa come ultima riga nel file:
hadoopuser ALL=(ALL) ALL
Passaggio 5. Configurazione del nodo singolo Hadoop.
Hadoop su un nodo singolo significa che Hadoop verrà eseguito come un singolo processo Java. Ora rinomina l'archivio hadoop come attualmente presente in hadoop only:
mv /root/jd-hadoop/hadoop-3.2.0 /root/jd-hadoop/hadoop chown -R hadoopuser:hadoop /root/jd-hadoop/hadoop
Una posizione migliore per Hadoop sarà la directory /usr/local/, quindi spostiamola lì:
mv hadoop /usr/local/ cd /usr/local/
Ora, modifica il file .bashrc per aggiungere Hadoop e Java al percorso usando questo comando:
nano ~/.bashrc
# Configure Hadoop and Java Home export HADOOP_HOME=/usr/local/hadoop export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export PATH=$PATH:$HADOOP_HOME/bin
Ora è il momento di dire anche a Hadoop dove è presente Java. Possiamo farlo fornendo questo percorso nel file hadoop-env.sh:
find hadoop/ -name hadoop-env.sh
Ora, modifica il file:
# nano hadoop-env.sh export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
Passaggio 6. Verifica dell'installazione di Hadoop.
Possiamo testare l'installazione di Hadoop eseguendo un'applicazione di esempio che ora viene fornita con Hadoop, un JAR di esempio di contatore di parole:
hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar wordcount /usr/local/hadoop/README.txt /root/jd-hadoop/Output
Se vuoi, puoi vedere il contenuto di questo file con il seguente comando:
cat part-r-00000
Questo è tutto ciò che devi fare per installare Apache Hadoop su Ubuntu 18.04. Spero che tu possa trovare utile questo suggerimento rapido. Se hai domande o suggerimenti, sentiti libero di lasciare un commento qui sotto.