Voglio subito fermare chi dirà che sto sfruttando una situazione ahimè triste e delicata per farmi pubblicità. In realtà la risposta è no.

Avendo già da tempo in agenda questo argomento ho pensato di applicarlo alla situazione attuale legata alla diffusione del coronavirus COVID-19. Il motivo?

In questo articolo voglio rendere chiaro come i dati possano dare evidenza e coscienza di situazioni altrimenti aleatorie, e come la loro visualizzazione sia un valore aggiunto per chi debba analizzare un fenomeno da vicino.

La fonte dei dati è un dataset pubblico curato dalla Johns Hopkins University basato sui dati di WHO, CDC, NHC and DXY.

Come ben sai una delle cose più importanti è la qualità e affidabilità del dato, ma considerato che questo ha uno scopo didattico ed in realtà i dati ricalcano le informazioni diffuse pubblicamente possiamo concludere che la qualità del dato sia accettabilmente un’immagine della realtà.

Per eseguire queste analisi ho utilizzato lo strumento jupyter notebook (se non l’hai mai sentito dovresti provarlo, è uno strumento flessibile e ottimo per queste attività. Ecco il link).

Virtual environment e librerie utilizzate

Come in ogni buon progetto python, creo sempre un ambiente virtuale dedicato e questa volta non ha fatto eccezione.

Di seguito le librerie utilizzate:

  • seaborn: una libreria per la generazione di grafici
  • pandas: libreria per il trattamento dei dati
  • plotly: un’altra libreria per l’analisi e la generazione di grafici
  • matplotlib: libreria di visualizzazione

Una delle librerie più utilizzate nel notebook che condivido di seguito è seaborn.

Seaborn rappresenta un tool davvero semplice da usare ma al tempo stesso avanzato per la visualizzazione di grafici che ti consiglio vivamente di studiare.

Inoltre come vedi dal codice, pandas è una di quelle librerie che non possono mancare nella tua toolbox. E’ chiaro quanto sia semplice manipolare dati (dataset, o meglio dataframe) aggiungendo colonne, eliminandole, raggruppandole, ordinandole, ecc…

Personalmente la trovo basilare per tutti i processi di data engineering e analisi, perchè riflette da vicino il modo di lavorare con i dati in SQL.

Iniziamo con l’analisi

Quello che vedi di seguito è l’esportazione in HTML del mio notebook jupyter. Ho cercato di commentare le varie fasi della lavorazione, ma sarà sufficiente leggere il codice per capire il risultato che si vuole ottenere.

Come vedi python mette a disposizione molti strumenti dedicati al processing e all’analisi dei dati, e questi erano solo alcuni esempi basilari.

Nel mio percorso ho raccolto molte informazioni interessanti in merito agli argomenti di cui ti ho parlato in questo articolo, ed ho scritto un libro “Why Your Data Matter”.

Essendo il frutto della mia passione ed esperienza diretta, ho scelto di mettere questo libro gratuitamente a disposizione di tutti gli IT Manager ed i CIO delle aziende che come te vogliono ottenere grandi risultati dalle loro scelte e dal loro lavoro (evitando di trovarsi in situazioni scomode e da risolvere con urgenza).

Ti invito a leggere le prime pagine scaricandole!
Se poi ti piacerà sarò felice di inviartene una copia GRATUITA direttamente nel tuo ufficio.  

Clicca qui per scaricare l’estratto del mio libro (se ti piacerà te lo invierò in formato cartaceo!) ==> il mio libro