3. Piattaforma Digitale Nazionale Dati
Scaling the Open Data Concept to 13000 Public Administrations
ANDREA CARLINI
Chief Data Product Manager
Italian Government – Digital Transformation Team
4. La Piattaforma Digitale Nazionale Dati I Casi d’Uso
PDND & Open Data Scaling The Open Data Concept
6. Visione
L'informazione é
fondamentale per
interpretare i fenomeni
sociali ed economici, prendere
decisioni informate, migliorare
i servizi ai cittadini, competere
sullo scenario internazionale.
Le nuove tecnologie
permettono di estrarre
sapere dall'enorme
mole di dati di cui
lo Stato dispone
Strategia
L'estrazione di valore
dai dati si ottiene con una
solida piattaforma tecnologica,
un team di esperti e soprattutto una
governance con competenze
che coordini la generazione,
l’integrazione,
la standardizzazione
e l’utilizzo dei dati.
8. Quali problemi risolve
• Compliance
Strumenti e modelli operativi per facilitare
la pubblicazione, distribuzione ed utilizzo
dei dati conforme al GDPR
• Interoperabilità
Punto centrale di raccolta e distribuzione
Standardizzazione delle codifiche
Abbattimento dei silos
• Democratizzazione
Open data utilizzabili da tutti, self service
• Standardizzazione
Metadatazione assistita, Cataloghi,
Ontologie, Validazione in fase di Ingestion
• Valorizzazione
Estrazione di informazioni per creare
modelli decisionali
• Engagement
Fare leva sulla potenza della community,
creare storie con i dati
9. CAD ( Codice Amministrazione Digitale ) articolo 50-ter
Introduce la Piattaforma Digitale Nazionale Dati e il concetto di conferimento
obbligatorio per alcuni data set strategici.
Con un DPCM, la Presidenza del Consiglio indicherà un elenco di dataset che le PA
dovranno obbligatoriamente conferire nella PDND
Normative di riferimento a Supporto
10. Storia del progetto
DAF nel Piano
Triennale
Nel CAD
DAF diventa PDND
Art 50 Ter
Il primoprototipovalive
durante Hack.Developers
Sviluppo e
sperimentazione con enti
pilota
2017 2018 2019
Inzioattivitàdi
consolidamentoed
introduzione dei concetti
PricavybyDesigne Data
QualitybyDesign
11. PDND e SaaS : PDND as a Service
La PDND adotta il modello di distribuzione del software applicativo come
Servizio ( SaaS ) , dove il Team per la Trasformazione Digitale ne è
responsabile per lo sviluppo, messa in opera, gestione e manutenzione,
semplificando i compiti delle PA relativamente alla gestione e condivisione
dei Dati Pubblici e la loro pubblicazione in Dati Aperti
12. PDND e SaaS : PDND as a Service
Piattaforma
Codice OpenSource Discussione Semantica
ed
Ontologie
Documentazione
Portale OpenDataPortale Privato
as Service
Portale Pubblico
as Service
21. PAC Regioni Comuni Altro
ACI
ANAC
Consip
Corte dei Conti
INAPP
MEF RGS
MIT
Toscana
Piemonte
Puglia
Umbria
Firenze
Torino
Roma Capitale
Università Torino
Attuali utilizzatori della PDND
23. PDND come Data Hub Problema che risolve
la complessitànell’acquisizione e
ridistribuzione dei dataset, in conformità con
GDPR
La PDND è un framework standardizzato per
l’automazione della acquisizione, controllo,
metadatazione e ridistribuzione sicura dei dati.
Esempio
Ad esempio, ANAC deve raccogliere dati sulle
gare da molte amministrazioni e, dopo averli
consolidati/filtrati, deve mettere il risultato a
disposizione di molte altre PA.
24. OpenData as-a-service
Problema che risolve
In esecuzione di CAD art 50 le PA devono
pubblicare i loro dati in formato aperto ma le
PAL non hanno strumenti e competenze per
farlo in maniera sicura e adeguata.
La PDND è un servizio di pubblicazione assistita
degli open data che garantisce la conformità
con le linee guida DCAT-AP_IT.
Esempio
Comune di Torino ha configurato PDND per
erogare un sito personalizzato ed esporre i
dataset che ha caricato
Logo, Stile, Filtri sui Dati e Widgets sono
specifici per il Comune, ma è PDND
25. Analytics as-a-service Problema che risolve
Le PA hanno bisogno di utilizzare i dati per
creare cruscottidecisionali.
La PDND è un servizio di correlazione e analisi
per facilitare l’esplorazione dei dati
Esempio
Comune di Milano ha caricato su PDND i suoi
dati e li ha combinati con altri già presenti per
creare una mappa dei quartieri che visualizza
diversi KPI ed aiuta ad ottimizzare la
pianificazione degli investimenti su territorio.
26. Data stories Problema che risolve
Le PA hanno vogliono comunicare con i
cittadini usando i dati
La PDND è un servizio di story-telling con i dati.
Esempio
Dal Registro nazionale degli aiuti di Stato è
stata creata una storia (simile a un blog post).
I grafici sono interattivi, zoomabili, e si
aggiornano via via che nuovi dati confluiscono
nella piattaforma.
Il testo a contorno spiega di cosa si sta
parlando e come interpretare i dati.
27. OpenAPI
Problema che risolve
I dati devono essere ottenibili non solo attraverso dei
portali dedicati alla loro distribuzione, ma anche
attraverso strumenti che ne consentono una più facile
integrazione con le altre piattaforme pubbliche,
sempre nel rispetto della sicurezza e privacy
Esempio
Integrazione PDND con software di terze parti per
DataViz, BI, Analytics
28. OpenAPI & 3rd Party Tools for DataViz, BI, Analytics
Esempio
Le PA che possiedono già strumentidi terze parti per
la Data Visualization, Business Intelligence, Data
Science, possono connettersi direttamente ai DataSet
della PDND sfruttando le REST API, in maniera
semplice, rapida e sicura
30. L’origine dei Dati Aperti ( Open Data )
Il termine «Open Data» è apparso per la prima volta nel 1995, in
un documento di un'agenzia scientifica americana. Si è occupato
della divulgazione di dati geofisici e ambientali. Per citare gli autori
del rapporto: "La nostra atmosfera, gli oceani e la biosfera formano
un insieme integrato che trascende i confini".
Promuovono uno scambio completo e aperto di informazioni
scientifiche tra diversi paesi, un prerequisito per l'analisi e la
comprensione di questi fenomeni globali.
31. Open Data e Normative di riferimento a
Supporto in Italia
CAD ( Codice Amministrazione Digitale ) articoli 50 e 52
Dal 2005 normano il concetto di Open Data by Default e gli obblighi di condivisione
dei dati delle PA.
Le PA sono obbligate:
• a mettere i dati in condivisione tra loro (per fini istituzionali)
• a rilasciare i dati in formato aperto (open data) mettendoli a disposizione della
comunità quando non ci sono ostacoli di privacy o di sicurezza nazionale
32. Classificazione degli Open Data
Nel 2010 nasce il primo Sistema di classificazione di un Dato Aperto proposto da Tim Berners-Lee, il
creatore del World Wide Web. Esso si basa su un Sistema di Ranking da 1 a 5 ( stelle ) secondo la
seguente scala di requisiti :
(1) Essere disponibile su Web con una licenza aperta
(2) Essere in formato strutturato
(3) Essere in un formato di file non-proprietario
(4) Fare uso di URI per identificare i dati, in modo che possano essere facilmente referenziati
(5) Includere link ad altre sorgenti dati (vedi linked data)
Si può definire Dato Aperto solo quello che è in grado di soddisfare almeno primi tre requisiti e
quindi ottenere un punteggio di 3 stelle
33. Il fenomeno dei Big Data
Dal 2010 il volume di dati in Internet cresce
esponenzialmente, solo nel 2016 è stato creato
un volume pari al 90% del totale, nel 2017 una
ulteriore crescita del 45%
Il termine big data, indica genericamente una raccolta di dati così estesa in termini di volume,
velocità e varietà da richiedere tecnologie e metodi analitici specifici per l'estrazione di valore o
conoscenza.
Il termine è utilizzato in riferimento alla capacità (propria della scienza dei dati) di analizzare ovvero
estrapolare e mettere in relazione un'enorme mole di dati eterogenei, strutturati e non strutturati,
allo scopo di scoprire i legami tra fenomeni diversi (ad esempio correlazioni) e prevedere quelli
futuri..
34. Open Data e Big Data : Open Big Data
Due concetti differenti si uniscono
I Big Data si concentrano principalmente sulle possibilità offerte
sfruttando un volume di dati in crescita esponenziale. Mentre con i
dati aperti, la creazione di valore dipende dalla capacità di condividere i
dati, di renderli disponibili a terze parti, piuttosto che sul volume puro.
I dati aperti rispondono a una serie di criteri tecnici, economici e legali:
devono essere liberamente disponibili online, in un formato che
consenta il riutilizzo
35. Situazione Open Data In Italia
L’italia nel rapporto DESI 2018 si è situata all’ 8 posto
nella classifica dei Servizi Pubblici Digitali per gli OpenData,
recuperando ben 11 posizioni dal 2017
Questo valore però non
evidenzia un problema molto
grave :
La scarsa qualità dei dati
che questi servizi offrono
36. Situazione Open Data In Italia
Controllando i numerosi portali dove questi dati sono esposti si può facilmente
verificare come essi siano poco aggiornati e presentano numerosi problemi per il
loro riutilizzo, ed il tutto trova riscontro negli indici relativi al «Capitale Umano» e
«Uso dei Servizi Internet» :
I DATI NON VENGONO USATI
37. La scarsa Qualità del Dato impatta sul suo riutilizzo
Problemi Riscontrati : ANPR Archivio Storico Comuni
Di contenuto
1. Ridefinizione interna di codici master presenti in altre banche dati - opposto del principio
once only
e.g. ID provincia interno e non di ISTAT titolare del dato
2. Gestione differente rispetto ad altre banche dati note per le maiuscole e minuscole nei
nomi dei comuni
3. Gestione del multilinguismo per certi nomi assente (deducibile solo guardando la
regione)
4. Assenza di una gestione appropriata delle modifiche del dato
Tecnici
1. Assenza di metadatazione (anche secondo lo standard nazionale)
2. Formato proprietario, licenza assente
3. Nessun permanent link disponibile
4. Nessuna specifica della semantica dei dati
38. La scarsa Qualità del Dato impatta sul suo riutilizzo
Problemi Riscontrati : IPA Indice Pubbliche Amministrazioni
Di contenuto
1. Ridefinizione interna di codici master presenti in altre banche dati - opposto del principio
once only
e.g. gestione interna dei comuni che non sono aggiornati alle ultime
modifiche ISTAT
2. Diversi modi per indicare che un campo non è valorizzato
e.g. «null», spazi bianchi, «da indicare» «da_indicare»,«-», «0», «n.d.», «non
dichiarato» ...
3. Campi indirizzo che contengono numeri di telefono (problema semantico)
4. Indirizzi gestiti con testo libero: stesso indirizzo scritto in maniera diversa in diversi
record
5. Tutti gli accenti trasformati in apostrofi (per ragioni di sicurezza nella fase di
compilazione di web form)
Tecnici
1. Assenza di metadatazione (anche secondo lo standard nazionale)
39. I Dati Pubblici : Set di dati dove il Titolare è la Pubblica
Amministrazione
Non necessariamente un Dato Pubblico può essere considerato
Aperto
Le recendi regolamentazioni sulla protezione dei dati impongono
dei limiti sulla condivisione dei Dati Pubblici anche tra PA,
nonostante vi siano delle convenzioni pre-esistenti di interscambio
di informazioni
Dai Dati Pubblici ai Dati Aperti : Il «problema» della Privacy
40. Solo dopo la conferma dell’uscita del regolamento GDPR (UE) n. 2016/679
I più grossi fornitori di piattaforme Data Lake & Big Data Analytics hanno
inizato a preoccuparsi seriamente della Privacy sui Dati
Tutti i sistemi creati “in house” che non erano disegnati per supportare un
certo tipo di verifiche e controlli sui dati hanno dovuto subire una rivoluzione
Ad oggi molte pubbliche amministrazioni vedono la GDPR più come un
ostacolo che una garanzia per il Cittadino, soprattutto perchè rende più
complessa la ridistribuzione dei Dati Privati della Pubblica Amministrazione
Dai Dati Pubblici ai Dati Aperti : Il «problema» della Privacy
42. I Punti Chiave della Scalabilità del concetto Open Data
- Per le PA che oggi pubblicano dati occorre indirizzare e risolvere tutti I problemi di
qualità sulle sorgenti
- Per le PA che non pubblicano dati che potrebbero essere Aperti, nonostante la legge lo
imponga, occorre fornire gli strumenti e le competenze per farlo
- La PDND è lo strumento che può semplificare
i compiti delle Pubbliche Amministrazioni
nell’adottare il concetto di Open Data
grazie al modello SaaS , supportando
l’indirizzamento e la risoluzione dei
problemi di qualità sulle sorgenti
43. La PDND e l’indirizzamento delle problematiche sui Dati
Aperti prima e dopo la loro pubblicazione
- Durante la fase di on boarding di una PA in PDND viene fatta una analisi dei dati da
ingerire da parte dei nostril Data Scientists, in modo da dare le opportune indicazioni
sulle modifiche da fare sui dataset di origine
- La metadatazione dei DataSet eseguita in fase di Ingestion è fatta in rispetto ai
cataloghi ed ontologie già presenti, e garantisce una maggiore standardizzazione e
minor rischio di errori
- Una volta “ingeriti” nella piattaforma, I dati possono essere ulteriormente controllati
eseguendo dei modelli di analisi complessi direttamente sulla piattaforma Big Data
- I controlli sulla privacy dei dati sono sia lato ingestion che condivisione e pubblicazione (
in open data ) attraverso delle form di Impact Assessment