GNU/Linux >> Linux Esercitazione >  >> Ubuntu

Come installare Apache Hadoop su Ubuntu 20.04 LTS

In questo tutorial, ti mostreremo come installare Apache Hadoop su Ubuntu 20.04 LTS. Per chi non lo sapesse, Apache Hadoop è un framework open source utilizzato per lo storage distribuito nonché l'elaborazione distribuita di big data su cluster di computer che funzionano su hardware di base.Invece di fare affidamento sull'hardware per fornire un'elevata disponibilità, la libreria stessa è progettata per rilevare e gestire i guasti a livello di applicazione, offrendo così un servizio altamente disponibile sopra un cluster di computer, ognuno dei quali può essere soggetto a guasti.

Questo articolo presuppone che tu abbia almeno una conoscenza di base di Linux, sappia come usare la shell e, soprattutto, che ospiti il ​​tuo sito sul tuo VPS. L'installazione è abbastanza semplice e presuppone che tu sono in esecuzione nell'account root, in caso contrario potrebbe essere necessario aggiungere 'sudo ' ai comandi per ottenere i privilegi di root. Ti mostrerò passo passo l'installazione di Flask su Ubuntu 20.04 (Focal Fossa). Puoi seguire le stesse istruzioni per Ubuntu 18.04, 16.04 e qualsiasi altra distribuzione basata su Debian come Linux Mint.

Prerequisiti

  • Un server che esegue uno dei seguenti sistemi operativi:Ubuntu 20.04, 18.04, 16.04 e qualsiasi altra distribuzione basata su Debian come Linux Mint.
  • Si consiglia di utilizzare una nuova installazione del sistema operativo per prevenire potenziali problemi.
  • Accesso SSH al server (o semplicemente apri Terminal se sei su un desktop).
  • Un non-root sudo user o accedere all'root user . Ti consigliamo di agire come non-root sudo user , tuttavia, poiché puoi danneggiare il tuo sistema se non stai attento quando agisci come root.

Installa Apache Hadoop su Ubuntu 20.04 LTS Focal Fossa

Passaggio 1. Innanzitutto, assicurati che tutti i pacchetti di sistema siano aggiornati eseguendo il seguente apt comandi nel terminale.

sudo apt update
sudo apt upgrade

Passaggio 2. Installazione di Java.

Per eseguire Hadoop, devi avere Java 8 installato sulla tua macchina. Per farlo, usa il seguente comando:

sudo apt install default-jdk default-jre

Una volta installato, puoi verificare la versione installata di Java con il seguente comando:

java -version

Passaggio 3. Crea un utente Hadoop.

Per prima cosa, crea un nuovo utente chiamato Hadoop con il seguente comando:

sudo addgroup hadoopgroup
sudo adduser —ingroup hadoopgroup hadoopuser

Successivamente, accedi con un utente Hadoop e genera una coppia di chiavi SSH con il seguente comando:

su - hadoopuser
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

Dopodiché, verifica l'SSH senza password con il seguente comando:

ssh localhost

Una volta effettuato l'accesso senza password, puoi procedere al passaggio successivo.

Passaggio 4. Installazione di Apache Hadoop su Ubuntu 20.04.

Ora scarichiamo l'ultima versione stabile di Apache Hadoop, Al momento della stesura di questo articolo è la versione 3.3.0:

su - hadoop
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz
tar -xvzf hadoop-3.3.0.tar.gz

Avanti, sposta la directory estratta in /usr/local/ :

sudo mv hadoop-3.3.0 /usr/local/hadoop
sudo mkdir /usr/local/hadoop/logs

Cambiamo la proprietà della directory Hadoop in Hadoop:

sudo chown -R hadoop:hadoop /usr/local/hadoop

Passaggio 5. Configura Apache Hadoop.

Impostazione delle variabili d'ambiente. Modifica ~/.bashrc il file e aggiungere i seguenti valori alla fine del file:

nano ~/.bashrc

Aggiungi le seguenti righe:

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

Applica variabili ambientali alla sessione attualmente in esecuzione:

source ~/.bashrc

Avanti, dovrai definire le variabili di ambiente Java in hadoop-env.sh per configurare le impostazioni di progetto relative a YARN, HDFS, MapReduce e Hadoop:

sudo nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Aggiungi le seguenti righe:

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 
export HADOOP_CLASSPATH+=" $HADOOP_HOME/lib/*.jar"

Ora puoi verificare la versione di Hadoop usando il seguente comando:

hadoop version

Passaggio 6. Configura core-site.xml file.

Apri il core-site.xml file in un editor di testo:

sudo nano $HADOOP_HOME/etc/hadoop/core-site.xml

Aggiungi le seguenti righe:

<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://0.0.0.0:9000</value>
      <description>The default file system URI</description>
   </property>
</configuration>

Passaggio 7. Configura hdfs-site.xml File.

Utilizza il seguente comando per aprire hdfs-site.xml file da modificare:

sudo nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Aggiungi le seguenti righe:

<configuration>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>

   <property>
      <name>dfs.name.dir</name>
      <value>file:///home/hadoop/hdfs/namenode</value>
   </property>

   <property>
      <name>dfs.data.dir</name>
      <value>file:///home/hadoop/hdfs/datanode</value>
   </property>
</configuration>

Passaggio 8. Configura mapred-site.xml File.

Utilizza il seguente comando per accedere a mapred-site.xml file:

sudo nano $HADOOP_HOME/etc/hadoop/mapred-site.xml

Aggiungi le seguenti righe:

<configuration>
   <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
   </property>
</configuration>

Passaggio 9. Configura yarn-site.xml File.

Apri il yarn-site.xml file in un editor di testo:

sudo nano $HADOOP_HOME/etc/hadoop/yarn-site.xml

Aggiungi le seguenti righe:

<configuration>
   <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
   </property>
</configuration>

Passaggio 10. Formatta il NameNode HDFS.

Ora accediamo con un utente Hadoop e formattiamo il NameNode HDFS con il seguente comando:

su - hadoop
hdfs namenode -format

Passaggio 11. Avvia il cluster Hadoop.

Ora avvia il NameNode e il DataNode con il seguente comando:

start-dfs.sh

Quindi, avvia YARN Resource e nodemanagers:

start-yarn.sh

Dovresti osservare l'output per accertarti che tenti di avviare datanode sui nodi slave uno per uno. Per verificare se tutti i servizi sono stati avviati correttamente usando 'jps ' comando:

jps

Passaggio 12. Accesso ad Apache Hadoop.

Il numero di porta predefinito 9870 ti dà accesso all'interfaccia utente di Hadoop NameNode:

http://your-server-ip:9870

La porta predefinita 9864 viene utilizzata per accedere ai singoli DataNode direttamente dal tuo browser:

http://your-server-ip:9864

Lo YARN Resource Manager è accessibile sulla porta 8088:

http://your-server-ip:8088

Congratulazioni! Hai installato correttamente Hadoop. Grazie per aver utilizzato questo tutorial per installare Apache Hadoop sul tuo sistema Ubuntu 20.04 LTS Focal Fossa. Per ulteriore aiuto o informazioni utili, ti consigliamo di controllare il Sito Web Apache Hadoop.


Ubuntu
  1. Come installare Apache su Ubuntu 18.04

  2. Come installare Apache Hadoop su Ubuntu 16.04 LTS

  3. Come installare R su Ubuntu 18.04 LTS

  4. Come installare Apache Hadoop su Ubuntu 18.04 LTS

  5. Come installare R su Ubuntu 20.04 LTS

Come installare Apache Kafka su Ubuntu 20.04 LTS

Come installare Apache Subversion su Ubuntu 20.04 LTS

Come installare ModSecurity Apache su Ubuntu 20.04 LTS

Come installare Apache Tomcat su Ubuntu 20.04 LTS

Come installare Apache Guacamole su Ubuntu 20.04 LTS

Come installare Apache su Ubuntu 22.04