In questo articolo, avremo spiegato i passaggi necessari per installare e configurare Hadoop su Ubuntu 20.04 LTS. Prima di continuare con questo tutorial, assicurati di aver effettuato l'accesso come utente con sudo
privilegi. Tutti i comandi in questo tutorial devono essere eseguiti come utente non root.
La libreria software Apache Hadoop è il framework che consente l'elaborazione dispersa di grandi set di dati su cluster di computer utilizzando semplici modelli di sviluppo. È progettato per passare da server singoli a migliaia di macchine, ognuna delle quali offre elaborazione e archiviazione locali. Piuttosto che fare affidamento sull'hardware per fornire un'elevata disponibilità, la raccolta stessa è progettata per rilevare e gestire i guasti al rivestimento dell'applicazione, offrendo così un servizio altamente disponibile sulla parte superiore di un cluster di sistemi informatici, ognuno dei quali può essere suscettibile di fallimenti.
Installa Hadoop su Ubuntu 20.04
Passaggio 1. Innanzitutto, prima di iniziare a installare qualsiasi pacchetto sul tuo server Ubuntu, ti consigliamo sempre di assicurarti che tutti i pacchetti di sistema siano aggiornati.
sudo apt update sudo apt upgrade
Passaggio 2. Installa Java.
Puoi installare OpenJDK dai repository apt predefiniti:
sudo apt install default-jdk default-jre
Dopo aver installato correttamente Java su Ubuntu 20.04, conferma la versione con la riga di comando java:
java -version
Passaggio 3. Crea un utente Hadoop.
Esegui il seguente comando per creare un nuovo utente con il nome Hadoop:
sudo adduser hadoop sudo usermod -aG sudo hadoop sudo usermod -aG sudo hadoop
Successivamente, esegui il seguente comando per generare coppie di chiavi pubbliche e private:
ssh-keygen -t rsa
Quindi, aggiungi le chiavi pubbliche generate da id_rsa.pub
a authorized_keys
e imposta il permesso:
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 640 ~/.ssh/authorized_keys
Verifica di poter eseguire ssh utilizzando la chiave aggiunta:
ssh localhost
Passaggio 4. Installa Hadoop sul sistema Ubuntu.
Vai alla pagina ufficiale del progetto Apache Hadoop e seleziona la versione di Hadoop che desideri implementare:
su - hadoop wget https://downloads.apache.org/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz tar -xvzf hadoop-3.3.2.tar.gz mv hadoop-3.3.2 hadoop
Avanti, dovrai configurare Hadoop e le variabili di ambiente Java sul sistema Ubuntu:
nano ~/.bashrc
Aggiungi le seguenti righe:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/ export HADOOP_HOME=/home/hadoop/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export HADOOP_YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
Al termine, attiva le variabili d'ambiente:
source ~/.bashrc
Successivamente, apri il file della variabile d'ambiente Hadoop:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/
Passaggio 5. Configura Hadoop.
Ora crea il namenode
e datanode
directory all'interno della home directory di Hadoop:
mkdir -p ~/hadoopdata/hdfs/namenode mkdir -p ~/hadoopdata/hdfs/datanode
Quindi, modifica il core-site.xml
file e aggiornalo con il nome host del tuo sistema:
nano $HADOOP_HOME/etc/hadoop/core-site.xml
Cambia la seguente riga:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop.tecadmin.com:9000</value> </property></configuration>
Quindi, modifica il hdfs-site.xml
file:
nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Cambia la seguente riga:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.name.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value> </property> <property> <name>dfs.data.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value> </property></configuration>
Quindi, modifica il mapred-site.xml
file:
nano $HADOOP_HOME/etc/hadoop/mapred-site.xml
Apporta le seguenti modifiche:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property></configuration>
Una volta, modifica il yarn-site.xml
file:
nano $HADOOP_HOME/etc/hadoop/yarn-site.xml
Apporta le seguenti modifiche al file:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property></configuration>
Passaggio 6. Avvia il cluster Hadoop.
Ora esegui il seguente comando per formattare il Namenode Hadoop:
hdfs namenode -format start-dfs.sh
Quindi, avvia il servizio YARN utilizzando i seguenti comandi:
start-yarn.sh
Digita questo semplice comando per verificare se tutti i demoni sono attivi e in esecuzione come processi Java:
jps
Passaggio 7. Configura Firewall.
Esegui il seguente comando per consentire le connessioni Hadoop attraverso il firewall:
firewall-cmd --permanent --add-port=9870/tcp firewall-cmd --permanent --add-port=8088/tcp firewall-cmd --reload
Passaggio 8. Accesso a Hadoop.
Usa il tuo browser preferito e vai al tuo URL o IP localhost. Il numero di porta predefinito 9870 ti dà accesso all'interfaccia utente di Hadoop NameNode:
http://your-ip-address:9870
Questo è tutto ciò che devi fare per installare Hadoop su Ubuntu 20.04 LTS Focal Fossa. Spero che tu possa trovare utile questo suggerimento rapido. Per ulteriori letture su Apache Hadoop, fare riferimento alla loro knowledge base ufficiale. Se hai domande o suggerimenti, sentiti libero di lasciare un commento qui sotto.