GNU/Linux >> Linux Esercitazione >  >> Ubuntu

Come installare Hadoop su Ubuntu 20.04

In questo articolo, avremo spiegato i passaggi necessari per installare e configurare Hadoop su Ubuntu 20.04 LTS. Prima di continuare con questo tutorial, assicurati di aver effettuato l'accesso come utente con sudo privilegi. Tutti i comandi in questo tutorial devono essere eseguiti come utente non root.

La libreria software Apache Hadoop è il framework che consente l'elaborazione dispersa di grandi set di dati su cluster di computer utilizzando semplici modelli di sviluppo. È progettato per passare da server singoli a migliaia di macchine, ognuna delle quali offre elaborazione e archiviazione locali. Piuttosto che fare affidamento sull'hardware per fornire un'elevata disponibilità, la raccolta stessa è progettata per rilevare e gestire i guasti al rivestimento dell'applicazione, offrendo così un servizio altamente disponibile sulla parte superiore di un cluster di sistemi informatici, ognuno dei quali può essere suscettibile di fallimenti.

Installa Hadoop su Ubuntu 20.04

Passaggio 1. Innanzitutto, prima di iniziare a installare qualsiasi pacchetto sul tuo server Ubuntu, ti consigliamo sempre di assicurarti che tutti i pacchetti di sistema siano aggiornati.

sudo apt update
sudo apt upgrade

Passaggio 2. Installa Java.

Puoi installare OpenJDK dai repository apt predefiniti:

sudo apt install default-jdk default-jre

Dopo aver installato correttamente Java su Ubuntu 20.04, conferma la versione con la riga di comando java:

java -version

Passaggio 3. Crea un utente Hadoop.

Esegui il seguente comando per creare un nuovo utente con il nome Hadoop:

sudo adduser hadoop
sudo usermod -aG sudo hadoop
sudo usermod -aG sudo hadoop

Successivamente, esegui il seguente comando per generare coppie di chiavi pubbliche e private:

ssh-keygen -t rsa

Quindi, aggiungi le chiavi pubbliche generate da id_rsa.pub a authorized_keys e imposta il permesso:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 
chmod 640 ~/.ssh/authorized_keys

Verifica di poter eseguire ssh utilizzando la chiave aggiunta:

ssh localhost

Passaggio 4. Installa Hadoop sul sistema Ubuntu.

Vai alla pagina ufficiale del progetto Apache Hadoop e seleziona la versione di Hadoop che desideri implementare:

su - hadoop 
wget https://downloads.apache.org/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz
tar -xvzf hadoop-3.3.2.tar.gz 
mv hadoop-3.3.2 hadoop

Avanti, dovrai configurare Hadoop e le variabili di ambiente Java sul sistema Ubuntu:

nano ~/.bashrc

Aggiungi le seguenti righe:

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/
export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

Al termine, attiva le variabili d'ambiente:

source ~/.bashrc

Successivamente, apri il file della variabile d'ambiente Hadoop:

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/

Passaggio 5. Configura Hadoop.

Ora crea il namenode e datanode directory all'interno della home directory di Hadoop:

mkdir -p ~/hadoopdata/hdfs/namenode 
mkdir -p ~/hadoopdata/hdfs/datanode

Quindi, modifica il core-site.xml file e aggiornalo con il nome host del tuo sistema:

nano $HADOOP_HOME/etc/hadoop/core-site.xml

Cambia la seguente riga:

<configuration>        <property>                <name>fs.defaultFS</name>                <value>hdfs://hadoop.tecadmin.com:9000</value>        </property></configuration>

Quindi, modifica il hdfs-site.xml file:

nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Cambia la seguente riga:

<configuration>        <property>                <name>dfs.replication</name>                <value>1</value>        </property>        <property>                <name>dfs.name.dir</name>                <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>        </property>        <property>                <name>dfs.data.dir</name>                <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>        </property></configuration>

Quindi, modifica il mapred-site.xml file:

nano $HADOOP_HOME/etc/hadoop/mapred-site.xml

Apporta le seguenti modifiche:

<configuration>        <property>                <name>mapreduce.framework.name</name>                <value>yarn</value>        </property></configuration>

Una volta, modifica il yarn-site.xml file:

nano $HADOOP_HOME/etc/hadoop/yarn-site.xml

Apporta le seguenti modifiche al file:

<configuration>        <property>               <name>yarn.nodemanager.aux-services</name>                <value>mapreduce_shuffle</value>        </property></configuration>

Passaggio 6. Avvia il cluster Hadoop.

Ora esegui il seguente comando per formattare il Namenode Hadoop:

hdfs namenode -format 
start-dfs.sh

Quindi, avvia il servizio YARN utilizzando i seguenti comandi:

start-yarn.sh

Digita questo semplice comando per verificare se tutti i demoni sono attivi e in esecuzione come processi Java:

jps

Passaggio 7. Configura Firewall.

Esegui il seguente comando per consentire le connessioni Hadoop attraverso il firewall:

firewall-cmd --permanent --add-port=9870/tcp 
firewall-cmd --permanent --add-port=8088/tcp 
firewall-cmd --reload

Passaggio 8. Accesso a Hadoop.

Usa il tuo browser preferito e vai al tuo URL o IP localhost. Il numero di porta predefinito 9870 ti dà accesso all'interfaccia utente di Hadoop NameNode:

http://your-ip-address:9870

Questo è tutto ciò che devi fare per installare Hadoop su Ubuntu 20.04 LTS Focal Fossa. Spero che tu possa trovare utile questo suggerimento rapido. Per ulteriori letture su Apache Hadoop, fare riferimento alla loro knowledge base ufficiale. Se hai domande o suggerimenti, sentiti libero di lasciare un commento qui sotto.


Ubuntu
  1. Come installare Apache Hadoop su Debian 11

  2. Come installare Apache Hadoop su CentOS 8

  3. Come installare Apache Hadoop su Ubuntu 14.04

  4. Come installare Apache Hadoop su Ubuntu 18.04 LTS

  5. Come installare Vai su Ubuntu 18.04

Come installare Vai su Ubuntu 18.04

Come installare R su Ubuntu 18.04

Come installare qt su Ubuntu 20.04

Come installare e configurare Hadoop su Ubuntu 20.04

Come installare Go in Ubuntu 20.04

Come installare Vai su Ubuntu 22.04