
Nel precedente articolo abbiamo visto insieme che dietro ai numeri che servono a farci prendere delle decisioni, c’è un lavoro complesso, preciso e critico.
In particolare, per semplicità, ho voluto evidenziare 4 punti fermi che riguardano le lavorazioni effettuate sui dati per fornire a te un risultato attendibile. Te li vado a riepilogare:
- Estrazione dei dati (ETL, Data Mining, ecc.…)
- Caricamento di questi ultimi in un “magazzino” di tua proprietà
- La loro lavorazione secondo i tuoi processi produttivi
- La loro analisi e relazione con modelli matematici che possano “predire il futuro” oppure darti una visione istantanea del presente
Certo adesso non andremo a parlare dei singoli punti, per questo ti invito a leggere l’articolo precedente, ma in questo articolo vogliamo dare risposta alla domanda iniziale:
visto che questi step hanno bisogno di essere progettati ed implementati dalla figura giusta… a chi rivolgersi?
Come avrai visto ad ogni step ho puntualizzato una cosa: se la realizzazione di tale passo fosse responsabilità di una figura ingegneristica o matematica.
Si perché come ho cercato di spiegarti, dal momento che si parla di applicazioni così complesse, scegliere bene è vitale.
Ecco quindi che voglio spiegarti chi è un data engineer (e dove entra in gioco nella sequenza di esempio che ti ho descritto sopra) e chi è invece un data scientist (e dove invece sarà lui ad entrare in gioco).
Di cosa si occupa il data engineer
Alla base, il data engineer ha un background informatico e di progettazione software, quindi fortemente tecnologico. Questo background generalmente si esprime nella conoscenza profonda di linguaggi di programmazione quali Java, Scala, Python, C#, SQL. Ma a differenza di altri sviluppatori di software, chi si occupa di dati ha esperienza nei sistemi distribuiti, nei big data, nelle strutture dati e nella loro lavorazione.
Quindi un data engineer solitamente si occupa di assicurare l’affidabilità dei dati, la loro efficienza, performance e qualità. Ad esempio strutturando e gestendo grandi basi di dati, acquisendo i dati da altri sistemi, sviluppando i sistemi software che processano i dati aziendali secondo le regole di business aziendali o ancora organizzando i big-data, una fonte sempre più importante per le aziende.
Ancora più importante, il data engineer ha la responsabilità di scegliere gli strumenti giusti per il lavoro e comprende in profondità le varie tecnologie e strutture e come combinarle e per creare soluzioni che consentano ai processi aziendali di un’azienda di disporre dei dati corretti.
Infine collabora a stretto contatto con il data scientist per mettergli a disposizione i dati giusti da analizzare.
Quindi se volessimo fare un’analogia, il data engineer è quel professionista che si occupa di tutta la parte strutturale e informatica del “viaggio dei dati” che ti ho descritto all’inizio.
Ma allora, di cosa si occupa un data scientist?
Il lavoro del data scientist
Generalmente parlando un data scientist ha un background matematico e statistico (o in fisica). Tutto questo gli permette di eseguire analisi avanzata e di costruire modelli matematici sempre più complessi.
In questo ruolo generalmente si ha il compito di analizzare i dati per aiutare l’azienda a comprendere certi fenomeni tra loro correlati e in alcuni casi anche ed eseguire predizioni sulla base delle relazioni scoperte. Questo richiede come per i data engineer una buona conoscenza del dominio aziendale e dei suoi processi.
Ovviamente come puoi immagine il lavoro del data scientist si basa fortemente su tutta l’infrastruttura creata dal data engineer. Ad esempio, come potrebbe un data scientist lavorare su dati non puliti e validati? E se questi dati non fossero nemmeno presenti per colpa di errori di progettazione? Ecco perchè prima ti dicevo che un data engineer è essenzialer per assicurare il buon funzionamento di tutta l’infrastruttura tecnica che verrà utilizzata in seguito anche dal data scientist.
Infine, i risultati devono essere forniti al business in modo comprensibile. Ciò richiede lo sviluppo di report e grafici immediatamente comprensibili.
Uno scienziato dei dati è qualcuno che ha aggiunto al proprio background matematico e statistico la programmazione per analizzare i dati e creare modelli matematici applicati.
Ma attenzione! Questo non significa avere un background informatico! In altre parole, il fatto che io sappia cambiare una lampadina o una presa elettrica non fa di me un elettricista in grado di progettare tutto un impianto da zero!
Ed ecco qui la differenza principale tra un data engineer ed un data scientist: un data scientist hanno imparato alcune basi di programmazione come strumento per le proprie analisi, mentre un data engineer ha un background accademico e decisamente più profondo della parte relativa al software e dei sistemi di gestione dei dati.

Spero di semplificare il tutto con questa immagine: a sinistra le responsabilità di un data engineer e a destra quelle di un data scientist
Attento a non sbagliare! (Leggi e capirai perchè)
Il rischio è quindi il solito: che qualcuno di inadeguato metta mano ai tuoi sistemi portandoti inevitabilmente alla rovina del progetto.
A volte accade che ci sia confusione in merito ai confini dei due ruoli e accade anche che la scelta ricada sul ruolo sbagliato oppure su un tuttofare. Ma come ti ho dimostrato prima, entrambi i ruoli richiedono una forte specializzazione!
È successo a volte che alcune aziende abbiano incaricato i propri data scientist di eseguire operazioni di pertinenza dei data engineer con risultati disastrosi e tanti soldi spesi per nulla.
Lo scienziato dei dati non conosce le cose che un ingegnere dei dati conosce. La creazione di una pipeline di dati non è un compito facile: richiede competenze di programmazione avanzate, comprensione di framework per big data e creazione di sistemi.
Uno scienziato di dati commetterebbe facilmente errori e scelte sbagliate che un ingegnere dei dati non dovrebbe (DOVREBBE). Uno scienziato dei dati spesso non conosce lo strumento giusto per un lavoro. Spesso tutto viene generalizzando usando un singolo strumento (di solito quello sbagliato) per ogni compito. Ma la realtà è che sono necessari molti strumenti diversi per diversi lavori.
Insomma non si può usare una pinza per tutto… puoi usarla anche per svitare un bullone in casi estremi… ma… ma anche no!
Ho visto molte volte aziende ricadere su una unica figura “tuttofare”, ma ti prego, non fare questo errore: i problemi derivanti potrebbero essere notevoli e pregiudicare il tuo progetto.
Se ti chiedi quale sia il mio ruolo, ecco la risposta!
Ecco la risposta, mi occupo di data engineering. Insomma, mi rivolgo a tutta la parte ingegneristica della gestione dei dati. Realizzo sistemi di recupero e lavorazione dati, amministro grandi basi di dati e sono quindi in grado di consigliarti la tecnologia più appropriata e di progettare l’architettura corretta per il successo del tuo progetto. Mi rendo conto della complessità dell’argomento, ed ecco perché dedico tanto tempo allo studio e alla preparazione di esami di certificazione.
Per quanto riguarda la data science, non posso certo dire di essere uno statista ne un fisico o un matematico, ma mentre la parte ingegneristica è sempre cucita su misura per il cliente, secondo Deloitte (società di consulenza che ha realizzato un interessante studio di cui ho parlato in questo articolo) la parte di data science in molti casi può essere generalizzata e infatti nel 2019 ci attendiamo che molti servizi di data science saranno resi disponibili on-demand tramite servizi web, pronti per essere utilizzati dai data engineer.
Nel mio percorso ho raccolto molte informazioni interessanti in merito agli argomenti di cui ti ho parlato in questo articolo, ed ho scritto un libro “Why Your Data Metter”.
Essendo il frutto della mia passione ed esperienza diretta, ho scelto di mettere questo libro gratuitamente a disposizione di tutti gli IT Manager ed i CIO delle aziende che come te vogliono ottenere grandi risultati dalle loro scelte e dal loro lavoro (evitando di trovarsi in situazioni scomode e da risolvere con urgenza).
Ti invito a leggere le prime pagine scaricandole!
Se poi ti piacerà sarò felice di inviartene una copia GRATUITA direttamente nel tuo ufficio.
Clicca qui per scaricare l’estratto del mio libro (se ti piacerà te lo invierò in formato cartaceo!) ==> il mio libro