Quando si parla di “luoghi” dai quali è possibile ottenere dati, la prima cosa che salta alla mente è internet. I dati che sono contenuti nei siti tematici, nei social network ed in generale nella rete sono tantissimi.

E molti di questi possono essere utili al tuo business. Quindi il primo pensiero potrebbe essere: “Benissimo! Basta trovare il modo di prelevarli”!

E’ vero, esiste una tecnica chiamata “web scraping” che si occupa proprio di questo: uno strato software che in modo automatico esegue la scansione delle pagine web e ne estrae i dati.

Ci sono però alcune cose che devi sapere per vivere sereno. Non parlo solo di questioni tecnologiche ma anche di vincoli legali. Si perché quando parliamo di “web scraping” la linea che divide ciò che è consentito legalmente da ciò che invece non lo è diventa molto sottile.

Come ben sai mi occupo di data engineering e non di legge, ma quello che ti dirò adesso serve solo a ricordarti che prima di pianificare e sviluppare un sistema di web scraping dovresti essere sicuro di eventuali vincoli legali.

Questo articolo è il primo di due. Qui tratterò solo alcune considerazioni personali su cosa è permesso o no dalla legge.

Nel secondo invece parleremo della parte tecnologia, partendo da una mia recente consulenza proprio su questo argomento.

Il caso del garante della privacy

Per capire che non è sempre consentito ottenere dati da altri siti e farne l’uso che si vuole, ti riassumo quello che ho letto nella newsletter del Garante della Privacy del 4 febbraio 2016 (che puoi trovare qui) all’articolo intitolato “Tlc, no alla pesca a strascico sul web per formare gli elenchi telefonici”.

Una società aveva usato tecniche di web scraping per creare un elenco di oltre 12 milioni di persone (con tanto di dati sensibili), liberamente accessibile dagli utenti del sito gestito dalla società stessa.

Fatto interessante, la società aveva ottenuto quei dati da siti che a loro volta esponevano i dati pubblicamente. Ma ciò non è servito a scongiurare il divieto del Garante della Privacy come si legge nello stesso articolo:

Nel disporre il divieto il Garante ha riaffermato le regole sulla formazione degli elenchi telefonici  e ha ritenuto la pubblicazione on line di un elenco telefonico non tratto dal dbu e senza il consenso degli interessati un trattamento particolarmente invasivo per l’ agevole reperibilità dei dati anche mediante i più comuni motori di ricerca e per la possibilità che essi possano essere utilizzati anche per ulteriori trattamenti (ad es. marketing indesiderato).

Quindi dovresti concludere che non sia mai possibile ricorrere a queste tecniche per recuperare dati per te utili?

Il caso di Trenit e la sentenza del Tribunale di Roma

Passiamo al 2019 e a un esito completamente diverso per la sentenza del Tribunale di Roma nei confronti dell’app “Trenit”.

Trenit è un’applicazione della GoBright Media, una società britannica che si occupa di offrire orari dei treni, comparazione dei prezzi e di reindirizzare gli utenti sulle piattaforme delle varie compagnie per l’acquisto dei biglietti.

Dopo l’arrivo dell’app negli store italiani nel 2018 Trenitalia intentò una causa. La società che gestisce il trasporto ferroviario contestava il fatto che Trenit utilizzasse i dati disponibili pubblicamente (e ottenuti tramite tecniche di web scraping) senza che vi fosse un accordo in questo senso tra le due aziende.

In prima istanza, a Giugno 2019, la società è stata obbligata a cessare ogni estrazione di informazioni dalla banca dati di Trenitalia, compromettendone così l’intero servizio. A settembre 2019, dopo aver valutato le prove prodotte, il Tribunale di Roma, sezione Imprese, ha revocato l’ordinanza di qualche mese prima (qui il link all’articolo che riporta i documenti).

Secondo il Giudice non vi è sottrazione sostanziale della banca dati di Trenitalia perché, attraverso un software di web scraping, le informazioni vengono acquisite di volta in volta in base alla richiesta dell’utente. Per il giudice, quindi, non essendo replicata l’intera banca dati, l’illecito non sussisteva.

La sentenza del Tribunale di Roma, quindi, evidenzia che l’uso dei software di web scraping è da considerare anche in merito alla quantità dei dati prelevati.

Come vedi quindi, situazione diversa, esito diverso.

Un ultimo esempio hiQ vs Linkedin

Un’ultimo caso avvenuto oltre oceano: hiQ contro Linkedin (anche in questo caso ecco il link ai documenti).

HiQ Labs raccoglie i dati dai profili pubblici degli utenti di LinkedIn, quindi li utilizza per aiutare le aziende a selezionare e gestire al meglio il personale. Nel 2017 LinkedIn chiede ad hiQ Labs di interrompere la raccolta di dati dai profili di LinkedIn, sostenendo he la società stava violando la legge.

HiQ Labs in risposta, citò in giudizio LinkedIn, al fine di ottenere una pronuncia che difendesse la sua attività di web scraping.

Come è finita?

I giudici accolsero la richiesta di hiQ Labs, affermando che poiché pubblici, i profili Linkedin non erano soggetti ad alcuna legge anti-hacking perché di fatto non erano protetti da un sistema di autorizzazione.

Il primo accorgimento: leggi le note legali dei siti

Come abbiamo visto bisogna valutare ogni caso singolarmente. Non è possibile dire a priori se l’attività di web scraping che si intende sviluppare sia legale o meno. Ma uno dei primi passi che dovresti sicuramente fare è leggere le note legali dei siti dai quali si intende ottenere informazioni.

In esse spesso si possono trovare a volte espliciti divieti come nel caso del sito paginegialle dove si legge:

I dati ricavabili dal presente servizio sono contenuti in una banca dati protetta ai sensi e per gli effetti della legge sul diritto d’autore. Sono pertanto vietati, fra l’altro, la riproduzione ed il trasferimento, totale o parziale, con qualsiasi mezzo dei suddetti dati.

Sono comunque vietate le operazioni di estrazione e di reimpiego della totalità o di una parte sostanziale della stessa banca dati, nonchè l’estrazione o il reimpiego di parti non sostanziali del suo contenuto qualora tali attività siano ripetute e sistematiche.

In conclusione? Non ti spaventare, informati!

Come hai visto, tre azioni legali e tre risultati diversi (fra l’altro in paesi diversi).

Cosa se ne evince? Che non possiamo affermare a priori che sia tutto lecito o meno.

Gli esempi riportati servono solo a ricordare che bisogna valutare ogni caso.  Si deve valutare la tipologia di dati trattati, le fonti considerate, le modalità di pubblicazione: aspetti che vanno analizzati con attenzione per evitare, o quantomeno limitare, la possibilità di esporsi a sanzioni o ordini di varia natura da parte delle autorità competenti.

Fino a qui abbiamo visto che ci sono delle considerazioni legali da fare a monte, ma che dire delle questioni più tecnologiche?

Ho avuto modo fornire consulenza proprio per una attività di questo tipo e nella seconda parte di questo articolo ti racconterò alcuni dei retroscena tecnici legati alla pipeline di dati sviluppata ed all’utilizzo del cloud per questo tipo di attività!

Alla prossima informazione!