In questo tutorial, ti mostreremo come installare Apache Hadoop su Ubuntu 20.04 LTS. Per chi non lo sapesse, Apache Hadoop è un framework open source utilizzato per lo storage distribuito nonché l'elaborazione distribuita di big data su cluster di computer che funzionano su hardware di base.Invece di fare affidamento sull'hardware per fornire un'elevata disponibilità, la libreria stessa è progettata per rilevare e gestire i guasti a livello di applicazione, offrendo così un servizio altamente disponibile sopra un cluster di computer, ognuno dei quali può essere soggetto a guasti.
Questo articolo presuppone che tu abbia almeno una conoscenza di base di Linux, sappia come usare la shell e, soprattutto, che ospiti il tuo sito sul tuo VPS. L'installazione è abbastanza semplice e presuppone che tu sono in esecuzione nell'account root, in caso contrario potrebbe essere necessario aggiungere 'sudo
' ai comandi per ottenere i privilegi di root. Ti mostrerò passo passo l'installazione di Flask su Ubuntu 20.04 (Focal Fossa). Puoi seguire le stesse istruzioni per Ubuntu 18.04, 16.04 e qualsiasi altra distribuzione basata su Debian come Linux Mint.
Prerequisiti
- Un server che esegue uno dei seguenti sistemi operativi:Ubuntu 20.04, 18.04, 16.04 e qualsiasi altra distribuzione basata su Debian come Linux Mint.
- Si consiglia di utilizzare una nuova installazione del sistema operativo per prevenire potenziali problemi.
- Accesso SSH al server (o semplicemente apri Terminal se sei su un desktop).
- Un
non-root sudo user
o accedere all'root user
. Ti consigliamo di agire comenon-root sudo user
, tuttavia, poiché puoi danneggiare il tuo sistema se non stai attento quando agisci come root.
Installa Apache Hadoop su Ubuntu 20.04 LTS Focal Fossa
Passaggio 1. Innanzitutto, assicurati che tutti i pacchetti di sistema siano aggiornati eseguendo il seguente apt
comandi nel terminale.
sudo apt update sudo apt upgrade
Passaggio 2. Installazione di Java.
Per eseguire Hadoop, devi avere Java 8 installato sulla tua macchina. Per farlo, usa il seguente comando:
sudo apt install default-jdk default-jre
Una volta installato, puoi verificare la versione installata di Java con il seguente comando:
java -version
Passaggio 3. Crea un utente Hadoop.
Per prima cosa, crea un nuovo utente chiamato Hadoop con il seguente comando:
sudo addgroup hadoopgroup sudo adduser —ingroup hadoopgroup hadoopuser
Successivamente, accedi con un utente Hadoop e genera una coppia di chiavi SSH con il seguente comando:
su - hadoopuser ssh-keygen -t rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys
Dopodiché, verifica l'SSH senza password con il seguente comando:
ssh localhost
Una volta effettuato l'accesso senza password, puoi procedere al passaggio successivo.
Passaggio 4. Installazione di Apache Hadoop su Ubuntu 20.04.
Ora scarichiamo l'ultima versione stabile di Apache Hadoop, Al momento della stesura di questo articolo è la versione 3.3.0:
su - hadoop wget https://downloads.apache.org/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz tar -xvzf hadoop-3.3.0.tar.gz
Avanti, sposta la directory estratta in /usr/local/
:
sudo mv hadoop-3.3.0 /usr/local/hadoop sudo mkdir /usr/local/hadoop/logs
Cambiamo la proprietà della directory Hadoop in Hadoop:
sudo chown -R hadoop:hadoop /usr/local/hadoop
Passaggio 5. Configura Apache Hadoop.
Impostazione delle variabili d'ambiente. Modifica ~/.bashrc
il file e aggiungere i seguenti valori alla fine del file:
nano ~/.bashrc
Aggiungi le seguenti righe:
export HADOOP_HOME=/usr/local/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
Applica variabili ambientali alla sessione attualmente in esecuzione:
source ~/.bashrc
Avanti, dovrai definire le variabili di ambiente Java in hadoop-env.sh
per configurare le impostazioni di progetto relative a YARN, HDFS, MapReduce e Hadoop:
sudo nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh
Aggiungi le seguenti righe:
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 export HADOOP_CLASSPATH+=" $HADOOP_HOME/lib/*.jar"
Ora puoi verificare la versione di Hadoop usando il seguente comando:
hadoop version
Passaggio 6. Configura core-site.xml
file.
Apri il core-site.xml
file in un editor di testo:
sudo nano $HADOOP_HOME/etc/hadoop/core-site.xml
Aggiungi le seguenti righe:
<configuration> <property> <name>fs.default.name</name> <value>hdfs://0.0.0.0:9000</value> <description>The default file system URI</description> </property> </configuration>
Passaggio 7. Configura hdfs-site.xml
File.
Utilizza il seguente comando per aprire hdfs-site.xml
file da modificare:
sudo nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Aggiungi le seguenti righe:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.name.dir</name> <value>file:///home/hadoop/hdfs/namenode</value> </property> <property> <name>dfs.data.dir</name> <value>file:///home/hadoop/hdfs/datanode</value> </property> </configuration>
Passaggio 8. Configura mapred-site.xml
File.
Utilizza il seguente comando per accedere a mapred-site.xml
file:
sudo nano $HADOOP_HOME/etc/hadoop/mapred-site.xml
Aggiungi le seguenti righe:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
Passaggio 9. Configura yarn-site.xml
File.
Apri il yarn-site.xml
file in un editor di testo:
sudo nano $HADOOP_HOME/etc/hadoop/yarn-site.xml
Aggiungi le seguenti righe:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
Passaggio 10. Formatta il NameNode HDFS.
Ora accediamo con un utente Hadoop e formattiamo il NameNode HDFS con il seguente comando:
su - hadoop hdfs namenode -format
Passaggio 11. Avvia il cluster Hadoop.
Ora avvia il NameNode e il DataNode con il seguente comando:
start-dfs.sh
Quindi, avvia YARN Resource e nodemanagers:
start-yarn.sh
Dovresti osservare l'output per accertarti che tenti di avviare datanode sui nodi slave uno per uno. Per verificare se tutti i servizi sono stati avviati correttamente usando 'jps
' comando:
jps
Passaggio 12. Accesso ad Apache Hadoop.
Il numero di porta predefinito 9870 ti dà accesso all'interfaccia utente di Hadoop NameNode:
http://your-server-ip:9870
La porta predefinita 9864 viene utilizzata per accedere ai singoli DataNode direttamente dal tuo browser:
http://your-server-ip:9864
Lo YARN Resource Manager è accessibile sulla porta 8088:
http://your-server-ip:8088
Congratulazioni! Hai installato correttamente Hadoop. Grazie per aver utilizzato questo tutorial per installare Apache Hadoop sul tuo sistema Ubuntu 20.04 LTS Focal Fossa. Per ulteriore aiuto o informazioni utili, ti consigliamo di controllare il Sito Web Apache Hadoop.