GNU/Linux >> Linux Esercitazione >  >> Debian

Come installare Apache Hadoop su Debian 11

In questo tutorial, ti mostreremo come installare Apache Hadoop su Debian 11. Per chi non lo sapesse, Apache Hadoop è una piattaforma software open source basata su Java che gestisce l'elaborazione e l'archiviazione dei dati per le applicazioni Big Data. È progettato per scalare da server singoli a migliaia di macchine, ognuna delle quali offre elaborazione e archiviazione locali.

Questo articolo presuppone che tu abbia almeno una conoscenza di base di Linux, sappia come usare la shell e, soprattutto, che ospiti il ​​tuo sito sul tuo VPS. L'installazione è abbastanza semplice e presuppone che tu sono in esecuzione nell'account root, in caso contrario potrebbe essere necessario aggiungere 'sudo ' ai comandi per ottenere i privilegi di root. Ti mostrerò passo passo l'installazione di Apache Hadoop su una Debian 11 (Bullseye).

Prerequisiti

  • Un server che esegue uno dei seguenti sistemi operativi:Debian 11 (Bullseye).
  • Si consiglia di utilizzare una nuova installazione del sistema operativo per prevenire potenziali problemi.
  • Accesso SSH al server (o semplicemente apri Terminal se sei su un desktop).
  • Un non-root sudo user o accedere all'root user . Ti consigliamo di agire come non-root sudo user , tuttavia, poiché puoi danneggiare il tuo sistema se non stai attento quando agisci come root.

Installa Apache Hadoop su Debian 11 Bullseye

Passaggio 1. Prima di installare qualsiasi software, è importante assicurarsi che il sistema sia aggiornato eseguendo il seguente apt comandi nel terminale:

sudo apt update
sudo apt upgrade

Passaggio 2. Installazione di Java.

Apache Hadoop è un'applicazione basata su Java. Quindi dovrai installare Java nel tuo sistema:

sudo apt install default-jdk default-jre

Verifica l'installazione di Java:

java -version

Passaggio 3. Creazione dell'utente Hadoop.

Esegui il comando seguente per creare un nuovo utente con il nome Hadoop:

adduser hadoop

Successivamente, passa all'utente Hadoop una volta creato l'utente:

su - hadoop

Ora è il momento di generare una chiave ssh perché Hadoop richiede l'accesso ssh per gestire il suo nodo, macchina remota o locale, quindi per il nostro singolo nodo della configurazione di Hadoop configuriamo in modo tale da avere accesso al localhost:

ssh-keygen -t rsa

Dopodiché, dai il permesso al file authorized_keys:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

Quindi, verifica la connessione SSH senza password con il seguente comando:

ssh your-server-IP-address

Passaggio 4. Installazione di Apache Hadoop su Debian 11.

Per prima cosa, passa all'utente Hadoop e scarica l'ultima versione di Hadoop dalla pagina ufficiale utilizzando il seguente wget comando:

su - hadoop
wget https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.1/hadoop-3.3.1-src.tar.gz

Successivamente, estrai il file scaricato con il seguente comando:

tar -xvzf hadoop-3.3.1.tar.gz

Una volta decompresso, cambia la directory corrente nella cartella Hadoop:

su root
cd /home/hadoop
mv hadoop-3.3.1 /usr/local/hadoop

Quindi, crea una directory in cui archiviare i log con il seguente comando:

mkdir /usr/local/hadoop/logs

Cambia la proprietà della directory Hadoop in Hadoop:

chown -R hadoop:hadoop /usr/local/hadoop
su hadoop

Dopodiché, configuriamo le variabili di ambiente Hadoop:

nano ~/.bashrc

Aggiungi la seguente configurazione:

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

Salva e chiudi il file. Quindi, attiva le variabili d'ambiente:

source ~/.bashrc

Passaggio 5. Configura Apache Hadoop.

  • Configura le variabili di ambiente Java:
sudo nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Aggiungi la seguente configurazione:

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 
export HADOOP_CLASSPATH+=" $HADOOP_HOME/lib/*.jar"

Successivamente, dobbiamo scaricare il file di attivazione Javax:

cd /usr/local/hadoop/lib
sudo wget https://jcenter.bintray.com/javax/activation/javax.activation-api/1.2.0/javax.activation-api-1.2.0.jar

Verifica la versione di Apache Hadoop:

hadoop version

Risultato:

Hadoop 3.3.1
  • Configura il file core-site.xml:
nano $HADOOP_HOME/etc/hadoop/core-site.xml

Aggiungi il seguente file:

<configuration>
 <property>
            <name>fs.default.name</name>
        <value>hdfs://0.0.0.0:9000</value>
        <description>The default file system URI</description>
 </property>
</configuration>
  • Configura il file hdfs-site.xml:

Prima di configurare, creare una directory per la memorizzazione dei metadati del nodo:

mkdir -p /home/hadoop/hdfs/{namenode,datanode}
chown -R hadoop:hadoop /home/hadoop/hdfs

Quindi, modifica il hdfs-site.xml file e definire la posizione della directory:

nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Aggiungi la seguente riga:

<configuration>
     <property>
            <name>dfs.replication</name>
        <value>1</value>
     </property>

     <property>
        <name>dfs.name.dir</name>
        <value>file:///home/hadoop/hdfs/namenode</value>
     </property>

     <property>
        <name>dfs.data.dir</name>
        <value>file:///home/hadoop/hdfs/datanode</value>
     </property>
</configuration>
  • Configura il file mapred-site.xml:

Ora modifichiamo il mapred-site.xml file:

nano $HADOOP_HOME/etc/hadoop/mapred-site.xml

Aggiungi la seguente configurazione:

<configuration>
 <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
 </property>
</configuration>
  • Configura il file yarn-site.xml:

Dovresti modificare yarn-site.xml file e definire le impostazioni relative a YARN:

nano $HADOOP_HOME/etc/hadoop/yarn-site.xml

Aggiungi la seguente configurazione:

<configuration>
 <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
 </property>
</configuration>
  • Formatta NameNode HDFS.

Esegui il seguente comando per formattare il Namenode Hadoop:

hdfs namenode -format
  • Avvia il cluster Hadoop.

Ora avviamo NameNode e DataNode con il seguente comando:

start-dfs.sh

Avvia quindi la risorsa YARN e i gestori dei nodi:

start-yarn.sh

Ora puoi verificarli con il seguente comando:

jps

Risultato:

[email protected]:~$ jps
58000 NameNode
54697 DataNode
55365 ResourceManager
55083 SecondaryNameNode
58556 Jps
55365 NodeManager

Passaggio 6. Accesso all'interfaccia Web di Hadoop.

Una volta installato correttamente, apri il tuo browser web e accedi ad Apache Hadoop utilizzando l'URL http://your-server-ip-address:9870 . Verrai reindirizzato all'interfaccia web di Hadoop:

Naviga nel tuo URL o IP localhost per accedere ai singoli DataNode :http://your-server-ip-address:9864

Per accedere a YARN Resource Manager, utilizza l'URL http://your-server-ip-adddress:8088 . Dovresti vedere la seguente schermata:

Congratulazioni! Hai installato correttamente Hadoop. Grazie per aver utilizzato questo tutorial per installare l'ultima versione di Apache Hadoop su Debian 11 Bullseye. Per ulteriore aiuto o informazioni utili, ti consigliamo di controllare l'Apache ufficiale sito web.


Debian
  1. Come installare Apache Maven su Debian 10

  2. Come installare Apache Maven su Debian 11

  3. Come installare Apache Cassandra su Debian 11 / Debian 10

  4. Come installare Apache Hadoop su Debian 9 Stretch

  5. Come installare Hadoop su Debian 11

Come installare Apache Tomcat su Debian 11

Come installare Apache NetBeans su Debian 11 / Debian 10

Come installare Apache Subversion su Debian 9

Come installare Apache Kafka su Debian 9

Come installare Apache Cassandra su Debian 10

Come installare Apache Groovy su Debian 10