Negli ultimi cinque anni, l'industria della scienza dei dati è esplosa e i posti di lavoro nella scienza dei dati sono abbondanti e ben retribuiti. Tuttavia, iniziare con la scienza dei dati può essere difficile. Uno dei maggiori ostacoli è avere gli strumenti e l'ambiente giusti impostati sul tuo computer. Bene, a meno che tu non veda come installare Anaconda e come usarlo per la scienza dei dati.
Anaconda è una potente piattaforma di data science e un ottimo modo per iniziare con l'analisi, la modellazione e la visualizzazione dei dati. E in questo tutorial, seguirai i passaggi per installare Anaconda su Ubuntu Linux e alcune attività di base di manipolazione e visualizzazione dei dati.
Pronto? Continua a leggere per scoprire come iniziare con la scienza dei dati utilizzando Anaconda su Linux!
Prerequisiti
Questo tutorial sarà una dimostrazione pratica. Se desideri continuare, assicurati di avere una macchina Ubuntu Linux con almeno 4 GB di RAM e 5 GB di spazio libero su disco.
Lo spazio minimo su disco necessario per installare Anaconda è 5 GB, ma avrai bisogno di più spazio libero per svolgere un lavoro serio di scienza dei dati. Lavorare sulla scienza dei dati richiede molto spazio su disco perché devi scaricare e archiviare set di dati. Avere 50 GB di spazio libero sulla tua macchina sarebbe sufficiente per lavorare sulla scienza dei dati.
Download dello script Bash del programma di installazione Anaconda
Che tu sia un principiante della scienza dei dati o un professionista esperto, Anaconda è la piattaforma perfetta per le tue esigenze di analisi e modellazione dei dati. Ma prima dovrai installare Anaconda sulla tua macchina.
Per installare Anaconda, dovrai scaricare lo script di installazione Bash dal sito Web di Anaconda. Al momento in cui scrivo, l'ultima versione è Anaconda3-2021.11-Linux-x86_64.sh.
1. Apri il tuo terminale ed esegui i comandi seguenti per scaricare e salvare lo script Bash del programma di installazione di Anaconda sul tuo /tmp directory.
cd /tmp
curl -O https://repo.anaconda.com/archive/Anaconda3-2021.11-Linux-x86_64.sh
2. Quindi, esegui il comando sha256sum riportato di seguito per generare un hash crittografico SHA-256 per il file scaricato (Anaconda3-2021.11-Linux-x86_64.sh). Questo comando consente di verificare l'integrità dello script Bash del programma di installazione utilizzando MD5 o SHA256.
Il download di file da Internet comporta sempre il rischio che i file vengano manomessi o danneggiati durante il transito. La verifica dell'integrità dello script Bash del programma di installazione è fondamentale per essere sicuri di aver ricevuto una copia identica del file originariamente pubblicato da Anaconda.
sha256sum Anaconda3-2021.11-Linux-x86_64.sh
Annota gli hash del file per confrontarli con quelli disponibili sul sito web di Anaconda (passaggio tre).
3. Infine, apri il tuo browser web preferito e vai all'elenco di hash di Anaconda.
Cerca il nome dello script Bash del programma di installazione che hai scaricato (Anaconda3-2021.11-Linux-x86_64.sh). Una volta trovati, assicurati che gli hash che hai annotato nel passaggio due corrispondano a quelli elencati sul sito Web di Anaconda.
Se gli hash non corrispondono, ripeti i passaggi da uno a tre e ricontrolla gli hash.
Installazione di Anaconda su Ubuntu
Ora che hai scaricato lo script Bash e verificato la sua integrità, sei pronto per installare Anaconda. Lo script Bash del programma di installazione include tutti i comandi di installazione necessari, quindi tutto ciò che devi fare è eseguirlo.
1. Esegui il comando seguente per installare Anaconda sul tuo computer. Assicurati di sostituire Anaconda3-2021.11-Linux-x86_64.sh con il nome del file di script Bash che hai scaricato.
Nota che devi includere il comando bash indipendentemente dalla tua shell.
bash Anaconda3-2021.11-Linux-x86_64.sh
2. Dopo aver eseguito lo script Bash, premere Invio per visualizzare il Contratto di licenza con l'utente finale (EULA) quando richiesto. Continua a premere Invio per leggere la fine dell'EULA.
3. Dopo aver letto l'EULA, digita yes e premi Invio per accettare i termini della licenza, come mostrato di seguito.
4. Ora, premi Invio per accettare il percorso di installazione predefinito di Anaconda. Puoi scegliere la posizione che preferisci, ma si consiglia di scegliere una directory all'interno della tua cartella Inizio per un accesso più facile.
5. Immettere yes e premere Invio quando richiesto per inizializzare Anaconda3. Questo comando conda init assicura che il comando conda sia disponibile dal tuo terminale ogni volta che accedi alla tua macchina.
6. Quindi, esegui il comando seguente per applicare le modifiche al tuo ambiente shell.
source ~/.bashrc
La tua shell attuale cambia in base, il che indica che Anaconda3 è stato installato correttamente, come mostrato di seguito. base è l'ambiente shell predefinito in Anaconda che fornisce tutte le librerie e gli strumenti Python di base necessari per la scienza dei dati.
L'ambiente della shell di base include potenti strumenti da riga di comando, inclusi conda, anaconda prompt e Jupyter Notebook.
7. Esegui il comando conda list di seguito per verificare che Anaconda sia installato correttamente.
conda list
Vedrai un elenco di tutti i pacchetti e le versioni, come mostrato di seguito, che sono attualmente inclusi come parte del tuo ambiente di base.
8. Infine, esegui il comando conda deactivate di seguito per chiudere la sessione di anaconda.
conda deactivate
Tieni presente che i comandi conda activate e conda deactivate funzionano solo su conda 4.6 e versioni successive. Per le versioni conda precedenti alla 4.6, esegui invece i comandi seguenti:source activate o source deactivate
Impostazione dei tuoi ambienti Anaconda
Hai appena installato Anaconda sul tuo computer, ma devi configurare gli ambienti prima di poter utilizzare Anaconda per la scienza dei dati. Gli ambienti sono percorsi separati sul tuo file system in cui puoi installare diverse versioni di Python e pacchetti.
Questa configurazione è utile se devi lavorare con più progetti che richiedono versioni di Python o pacchetti differenti.
Da questo punto durante il tutorial, puoi nominare ambienti e file come preferisci poiché sono arbitrari.
Per configurare i tuoi ambienti Anaconda:
1. Esegui il comando conda create di seguito per creare un nuovo ambiente denominato my_env che esegue Python3 (python=3).
conda create --name my_env python=3
2. Quindi, inserisci y e premi Invio quando richiesto per scegliere se procedere o meno con la creazione dell'ambiente.
3. Una volta creato l'ambiente, esegui il comando condaactivate riportato di seguito per attivare il tuo nuovo ambiente (my_env).
conda activate my_env
4. Ora esegui il seguente conda create
comando per installare tutte le librerie e gli strumenti Python di base elencati di seguito necessari per la scienza dei dati per il tuo data_env
ambiente:
scipy
– Una popolare libreria Python per l'elaborazione scientifica per eseguire attività di analisi dei dati.
numpy
– Una libreria per lavorare con array multidimensionali.
pandas
– Una pratica libreria per l'analisi dei dati in quanto fornisce un modo potente e intuitivo per lavorare con i dati tabulari.
matplotlib
– Una libreria di plottaggio utilizzata per creare visualizzazioni sofisticate dei tuoi dati.
conda create --name data_env python=3 numpy scipy pandas matplotlib
5. Immettere y e premere Invio per continuare a creare l'ambiente data_env.
6. Infine, esegui il seguente comando conda env per controllare l'elenco degli ambienti disponibili.
conda env list
Vedrai tutti gli ambienti che sono stati creati sulla tua macchina, incluso l'ambiente di base, come mostrato di seguito.
Eseguire il tuo primo programma Python
Ora hai il tuo ambiente in esecuzione, ed è fantastico. Ma l'ambiente non sta facendo molto in questo momento a meno che tu non scriva un programma su di esso. In questo tutorial, utilizzerai il tuo ambiente per scrivere ed eseguire un semplice programma Python per calcolare l'età.
Per scrivere un programma Python con il tuo ambiente:
1. Esegui il comando seguente per attivare il tuo ambiente (my_env).
conda activate my_env
2. Quindi, esegui il comando seguente per aprire l'interprete Python. L'interprete Python è un ambiente REPL (read-evaluate-print loop) che consente di scrivere ed eseguire codice Python in modo interattivo.
python3
3. Copia e incolla il codice seguente nell'interprete e premi Invio.
Questo blocco di codice calcola e stampa l'età alla morte di una persona nata nel 1900 e diminuita nel 1970.
birth_year = 1900
death_year = 1970
age_at_death = death_year - birth_year
print(age_at_death)
Di seguito, puoi vedere l'output 70 stampato sul terminale, che indica che la persona aveva 70 anni quando è morta.
4. Ora esegui il comando exit() qui sotto per uscire dall'interprete Python
exit()
5. Infine, esegui il comando seguente per chiudere e terminare la sessione dell'ambiente my_env.
conda deactivate
Costruire il tuo primo progetto di scienza dei dati
Finora, hai visto come eseguire un semplice programma Python usando il tuo ambiente. Ma questa volta, intensifica il tuo gioco di scienza dei dati creando il tuo primo progetto. Un progetto di scienza dei dati in genere comporta la raccolta, l'esplorazione, l'analisi e la visualizzazione di dati per affrontare un'esigenza o un problema aziendale specifico.
Per creare il tuo primo progetto di scienza dei dati, traccia i tuoi dati con un grafico a dispersione (X, Y) usando la libreria matplotlib:
1. Esegui il comando condaactivate di seguito per attivare un ambiente chiamato data_env.
conda activate data_env
2. Quindi, crea un file Python chiamato scatter.py utilizzando il tuo editor di testo preferito.
nano scatter.py
3. Inserisci il codice qui sotto nel tuo scatter.py file, salva le modifiche e chiudi l'editor. Questo blocco di codice crea due array, ciascuno con 12 elementi, e traccia e mostra i punti dati.
# Imports matplotlib.pyplot to visualize the plot
import matplotlib.pyplot as plt
# Contains an array of numbers (cars ages) to x.
x = [5,7,8,7,2,17,2,9,4,11,12,9,6]
# Contains an array of nunbers (cars speeds) to y.
y = [99,86,87,88,111,86,103,87,94,78,77,85,86]
# Plot the data points
plt.scatter(x, y)
# Show the plotted data points
plt.show()
4. Infine, esegui il comando seguente per eseguire il file Python (scatter.py), che mostra il grafico sullo schermo.
python scatter.py
Vedrai i punti dati tracciati su un grafico come mostrato di seguito. La relazione tra età e velocità delle auto è chiara e può aiutare a prendere decisioni su come mantenere o migliorare le prestazioni di una flotta di auto.
La relazione apparente è che, all'aumentare dell'età di un'auto, la velocità alla quale può viaggiare diminuisce.
Potresti anche notare una leggera correlazione positiva tra età e velocità:con l'aumentare dell'età delle auto, anche le loro velocità tendono ad aumentare leggermente. Questa relazione può essere utile per le case automobilistiche che desiderano ottimizzare i propri veicoli in termini di prestazioni ed efficienza.
Ecco qua! Hai installato con successo Anaconda su Linux e creato il tuo primo progetto di scienza dei dati.
Rimozione degli ambienti
Gli ambienti consumano il tuo spazio di archiviazione, soprattutto se conservi quelli che non servono più a nessuno scopo. Perché non rimuoverli? Il conda env remove
farà il trucco fintanto che conosci il nome dell'ambiente da rimuovere.
Esegui il comando seguente per elencare tutti gli ambienti.
conda env list
Annota il nome dell'ambiente che intendi rimuovere.
Ora, esegui il seguente comando su remove
l'ambiente denominato (-n
) data_env
. Sostituisci data_env
con il nome dell'ambiente di destinazione da rimuovere.
conda env remove -n data_env
In alternativa, puoi eseguire il comando seguente specificando il percorso (-p
) dove si trova l'ambiente (/root/anaconda3/envs/data_env
).
conda env remove -p /root/anaconda3/envs/data_env
Conclusione
In questo tutorial, hai imparato come installare Anaconda su Ubuntu Linux e creare un ambiente Python 3 per la scienza dei dati. Hai scritto il tuo primo programma e usato matplotlib per tracciare i tuoi dati.
A questo punto, sei pronto per iniziare il tuo viaggio come data scientist con queste competenze!
Perché non iniziare il tuo viaggio nella scienza dei dati con Anaconda Navigator? Inizia a esplorare, analizzare e visualizzare i dati per i tuoi progetti!