Conferenza tenuta presso la ex SSAB da Stefano De Luca e Paola De Caro (Evodevo) il 12-03-2015 nell'ambito del 9. ciclo "Biblioteche libri documenti: dall'informazione alla conoscenza", a.a. 2014-2015, Prof.ssa M.T. Biagetti
2. info su www.evodevo.it
EVODEVO: CHI SIAMO
Evodevo è azienda di innovazione
per progetti Enterprise per clienti istituzionali e privati
Fornisce consulenza specializzata sulle tematiche dei dati e modelli
3. info su www.evodevo.it
FOCUS: KNOWLEDGE EXTRACTION AND VISUALIZATION
Big Data
GISSemantica
• Personale altamente specializzato sulle tematiche
indicate
• Ontologi ed esperti di meta-dati e knowledge
management
• Statistici e matematici
• Informatici e GIS
• Focus su estrazione e visualizzazione della conoscenza attraverso
• data and text mining,
• tecnologie semantiche,
• GIS (sistemi geografici)
• Realizzazione di
• portali di accesso e uso di dati
• sistemi di supporto delle decisioni
• gestione della conoscenza ed open
data
I nostri prodotti e servizi sono specializzati su:
• Open Data
• Semantic web e sistemi intelligenti
• Knowledge management
• Sistemi geografici (GIS, GIScience)
• Sistemi di supporto alle indagini
• Data Visualization
• Business intelligence e Location intelligence
• Sistemi di supporto alle decisioni
• Data mining e text mining
6. info su www.evodevo.it
PUBBLICAZIONE DEI DATI
• Realizzazione degli open data INPS
• Sviluppo di una metodologia OD
• Organizzatori Open Government Summit 2012
• Azienda invitata G8 UK per trasparenza e OD e Open Data Charter
• Supporto alla redazione di documenti normativi
• Sviluppo di applicazioni web e mobile su OD
• Citati come caso di eccellenza dalla World Bank
• OD per Comuni (pubblicazione e riuso)
• Sviluppato prodotto di trasformazione e pubblicazione,
OpenDataGround
• Membri Open Knowledge Foundation (OKF)
• Soci fondatori e consiglieri dell’ Istituto Italiano Open Data
7. info su www.evodevo.it
IL WEB
• L’attuale web è rivolto alle PERSONE
• Il focus è su:
• Contenuti (testi, immagini, video…)
• Pagine che raccolgono i contenuti
• Collegamenti tra pagine: hyperlink
• Esistono degli standard per definire come «costruire» il web, ad es:
• HTML: per la definizione delle pagine
• HTTP: protocollo di comunicazione per ricevere pagine e chiederne di nuove
• Gli standard sono definiti e controllati dal W3C, World Wide Web Consortium
8. info su www.evodevo.it
IL SEMANTIC WEB
• Alla fine degli anni ‘90 il «padre» del web, Tim Berners-Lee ha proposto
l’estensione dal WEB al SEMANTIC WEB
• Il semantic web è rivolto ai SOFTWARE
• L’idea di fondo è che agenti software intelligenti possano «leggere» il web e
usare le informazioni per interagire tra loro e il web per rispondere a dei compiti
9. info su www.evodevo.it
“… an extension of the current web in which
information is given well-defined meaning,
better enabling computers and people to work in
cooperation …”
“… a set of connected applications … forming
a consistent logical web of data …”
11. info su www.evodevo.it
ONTOLOGIE
• La base del semantic web. E’ un oggetto composto da:
• Un vocabolario usato per descrivere un dominio (ambito)
• Un’esplicita specificazione del significato inteso per il vocabolario
• Spesso include informazioni di classificazione
• Vincoli che catturino la conoscenza tacita (background knowledge) del
dominio
• Una buona ontologia dovrebbe:
• Catturare il signicato condiviso di un dominio
• Forire un modello formale ed usabile della macchine (software)
12. info su www.evodevo.it
LINGUAGGI DELLE ONTOLOGIE: RDF, RDFS
• Si è creato un linguaggio che permettesse di definire le
risorse
• Il primo di questi linguaggi è RDF (Resource Description
Framework , aumentato successivamente da RDFS (RDF
Schema)
• Permettono di definire:
• Classi e proprietà
• Sub/super-classi (e proprietà )
• Range e domain ( delle properties)
• È stato un buon inizio, ma troppo debole per descrivere le risorse
in dettaglio e consentire la possibilità di dedurre nuove
informazioni
13. info su www.evodevo.it
LINGUAGGI DELLE ONTOLOGIE:
OWL - WEB ONTOLOGY LANGUAGE
• RDF è stato esteso per creare un linguaggio che fosse capace
di descrivere un dominio e di permettere un reale reasoning
• Il reasoning (ragionamento automatico) è la capacità di
estrarre nuova conoscenza a partire dalle informazioni che si
hanno a disposizione
• Il nuovo linguaggio si chiama WEB ONTOLOGY LANGUAGE
(OWL)
• Esiste in diverse versioni, progressivamente più complesse:
• OWL-LITE: semplice da implementare ma poco espressivo
e oramai praticamente deprecato
• OWL-DL: basato sulla logica descrittiva, finalizzato
soprattutto al reasoning
• OWL-FULL: massima espressività rispetto alla descrizione
di un dominio di conoscenza, pertanto meno adatto al
reasoning (problema della indecidibilità)
• La versione attuale è OWL 2,
15. info su www.evodevo.it
LA BASE DELLE ONTOLOGIE: LE TRIPLE
• Le ontologie rappresentano ogni
informazione sotto forma di TRIPLE
composte da:
• SOGGETTO
• RELAZIONE
• OGGETTO
• Nell’esempio di lato,
rappresentiamo il fatto che Evodevo
si occupa di ontologie
Evodevo
Ontologie
Si occupa di
16. info su www.evodevo.it
LA BASE DELLE ONTOLOGIE: LE TRIPLE /2
• Usando le triple, si possono
aggiungere altri fatti
• Nella figura abbiamo esteso il
fatto precedente con altre
informazioni (altri due fatti)
Evodevo
Ontologie
Si occupa di
Azienda
È (is-a)
Intelligenza artificiale
parte di (part-of)
17. info su www.evodevo.it
RIFERIMENTI ASSOLUTI
• Le ontologie ereditano molto dalle reti semantiche
• Aggiungono a queste un concetto essenziale
OGNI ELEMENTO IN UNA ONTOLOGIA DEVE ESSERE UNICO SU TUTTO IL WEB
• Questo vuol dire che non basta comporre una tripla dicendo
<evodevo, è, Azienda>
• Perché sia evodevo che azienda sono ambigui sulla rete: qualcuno potrebbe
definire un altro evodevo o un altro modo di intendere azienda
• Il ragionamento che sta dietro questo problema è che LE ONTOLOGIE SI
POSSONO UNIRE TRA DI LORO e quindi ogni elemento deve essere UNICO
18. info su www.evodevo.it
RIFERIMENTI ASSOLUTI: LE URI
• Per rendere unici gli elementi, si usano le URI (Uniform Resource Identifier) o
meglio ancora IRI (Internationalized Resource Identifier), che sono URI con
caratteri internazionali
• Questo vuol dire che la tripla
<evodevo, è, Azienda>
• Diventa:
<http://www.evodevo.it/ontology#Evodevo,
http://www.w3.org/1999/02/22-rdf-syntax-ns#type,
http://www.evodevo.it/ontology#Azienda>
• Abbiamo colorato in arancione le parti di prefisso, la componente che con il
nome rende unico il riferimento
19. info su www.evodevo.it
URI NON URL
• Ogni elemento di un’ontologia RDF o OWL dovrà quindi essere definito con una
URI
• Le URI sono molto simili agli indirizzi che usiamo sul web, i cosidetti URL (Uniform
Resource Locator):
• http://www.evodevo.it/
• http://it.wikipedia.org/wiki/Ontologia_(informatica)
• mailto:info@evodevo.it
• Le URI però non devono puntare a qualcosa che esista davvero su Internet
• Se cercate una URI tramite il browser potreste non trovare nulla
20. info su www.evodevo.it
FATTI E DEFINIZIONI
• Le ontologie sono composte da fatti e definizioni
• Le definizioni compongono la TBOX (Terminological Box)
• Es. le persone sono umani, le ruote fanno parte di un’automobile
• I fatti compongono la ABOX (Assertional Box):
• Claudia e Paola sono persone
• Stefano guida una Volvo
• La somma delle due parti è un’ontologia completa
22. info su www.evodevo.it
COSA SONO GLI OPEN DATA
• Nati come variante semplice del semantic web
• Il semantic web chiede di pubblicare i dati in formato ontologico pochi lo
hanno fatto
• Con gli open data l’idea è:
pubblicate i dati in qualunque formato!
• Gli open data sono dati accompagnati da:
• licenza che li renda riusabili senza limiti, anche per scopi commerciali
• Metadati che permettano di trovarli e capirli
23. info su www.evodevo.it
OPEN DATA ED OPEN GOVERNMENT
• Gli open data sono legati ai principi dell’open government
• Per questo sono stati sposati principalmente dalle pubbliche amministrazioni
25. info su www.evodevo.it
I CINQUE LIVELLI OPEN DATA
dati in formato testo (.PDF, .TXT)
dati disponibili in struttura proprietaria (.XLS)
dati disponibili in formato non-proprietario (.CSV, .XML)
dati strutturati con URL ed URI
dati collegati (linked data) in formato semantico
(RDF /OWL + link)
26. info su www.evodevo.it
ESEMPIO DI OPEN DATA: LE BIBLIOTECHE DEL COMUNE DI
FIRENZE
• I dati vengono pubblicati sul web
• Sono scaricabili in almeno uno dei formati open
• Questi dati possono essere usati per mera consultazione o elaborati
• Chi li scarica li può usare per:
• Analisi
• Statistiche
• Costruire applicazioni
• Integrarli con altri dati
• Vediamo ad es. come si distribuiscono i dati delle Biblioteche di Firenze
27. info su www.evodevo.it
COSA E COME PUBBLICARE
La Legge n. 221/2012, con modificazioni, del Decreto legge n. 179 del 18 Ottobre 2012,
denominato “Decreto Crescita 2.0” stabilisce per le PA l’obbligo di:
• pubblicazione sul sito web di una sezione «Amministrazione trasparente» in cui esporre in
formato open informazioni relative a somme di danaro superiori a 1000 €, erogate a qualsiasi
titolo
• pubblicazione del catalogo dei dati, delle banche dati e dei metadati in loro possesso e i
regolamenti che ne disciplinano l’accesso e il riutilizzo
• principio dell’Open Data by default, ovvero che i dati si intendono rilasciati come dati aperti se
non hanno un’espressa adozione di licenza.
il D.lgs 33/2013 detto “Decreto trasparenza” ha imposto dei requisiti fondamentali per i dati sulla
trasparenza:
• Elenco dei dati con obbligo di pubblicazione per la trasparenza, anche per un maggiore
controllo sulle prestazioni erogate dalla PA
• accessibilità, riuso, formato leggibili i dalle macchine, metadati, licenza, formati destinati alla
fruizione del pubblico.
• Rispetto per il trattamento dei dati personali.
28. info su www.evodevo.it
ESEMPIO DI USO: INCIDENTI STRADALI – LOROS LOCAL ROAD
SAFETY
• Evodevo ha realizzato una piattaforma
per l’analisi degli incidenti stradali
• Inizialmente creata per la Polizia, è stata
successivamente evoluta
• Consente di avere informazioni su:
• Dati degli incidenti
• Strade e incroci più pericolosi
• Ragioni della pericolosità
• Differenze nel tempo (orari, giorni
della settimana, feriale/festivo etc.)
• Previsione futura del rischio stradale
• Disponibile plugin per integrare i dati
messi a disposizione da ISTAT tramite
SISTAN
• Presentato alla XI Conferenza Nazionale
dell’ISTAT come caso di eccellenza
31. info su www.evodevo.it
LINKED OPEN DATA: PROBLEMATICHE E OBIETTIVI
I motivi per cui incentivare lo sviluppo e l’utilizzo dei Linked Open Data possono essere
analizzati da due punti di vista:
• Interoperabilità semantica, per una maggiore condivisione e riutilizzo delle
informazioni.
• Nuova conoscenza, dedotta ed esplicitata dal collegamento delle informazioni.
32. info su www.evodevo.it
BEST PRACTICE LOD NELLE PUBBLICHE AMMINISTRAZIONI
• Sfruttamento del proprio patrimonio informativo
• Collegamento dei propri dati con quelli di altre amministrazioni
• Deduzione di nuova conoscenza attraverso il collegamento di dati e informazioni
• Dati e metadati in un’unica struttura e linguaggio, in RDF/OWL
• Riutilizzo automatico dei dati attraverso software
• Scelta di metodologie specifiche per gli open data e linked open data (ODMC, Open Data
Management Cycle, Evodevo Open Process)
• Web of data
33. info su www.evodevo.it
E-GOV, AMMINISTRAZIONI E LOD
• Interesse crescente da parte delle pubbliche amministrazioni verso
l’interoperabilità semantica, anche attraverso la pubblicazioni di:
• Studio sulle best practices e raccomandazioni nell'uso delle Persistent URI (con
iniziative che riguardano i Linked Open Data e il Semantic Web) (AGID, 2012)
• Interoperabilità semantica attraverso i Linked Open Data (AGID, 2012)
• Linee Guida Nazionali Per La Valorizzazione Del Patrimonio Informativo Pubblico
(AGID 2013)
• e-GLU 2.0 (Gruppo di Lavoro per l’Usabilità, 2014).
34. info su www.evodevo.it
VANTAGGI DEI LINKED OPEN DATA RISPETTO AGLI OPEN DATA
• I LOD sono più potenti in quanto:
• È possibile collegare i dati e le ontologie tra di loro (linked)
• È possibile distribuirli tramite un punto di accesso real-time (end point sparql) su
cui operare interrogazioni ed ottenere i dati anche in altri formati
35. info su www.evodevo.it
LINKED!
• Ai dati di una ontologia si
possono unire dati di altre
ontologie
• Così gli open data permettono
di muoversi da un’ontologia
all’altra, con una grande
ricchezza informativa
• Si usa l’ecosistema delle
ontologie
• A fianco uno schema molto
parziale delle ontologie
publiche e i loro collegamenti
36. info su www.evodevo.it
ESEMPIO DI CONNESSIONE: UNIRE AI PROPRI DATI QUELLI DI
DBPEDIA (WIKIPEDIA)
Evodevo
Roma
Ha sede in
Dbpedia:Roma
Same as
Dbpedia:Lazio
dbpedia-owl:administrativeDistrict
is dbpedia-owl:city of
dbpedia-
it:Biblioteca_Nazionale_
Centrale_di_Roma
dbpedia-
owl:ArchitecturalStructure
Is a
110 120 130 150 160
190 210 230 260 270
300
dbpprop-it:tempmax
45. info su www.evodevo.it
RISPOSTA METODOLOGICA AL PROBLEMA
DELL’INTEROPERABILITA’:
STANDARDIZZARE TUTTI I LIVELLI DI INTEROPERABILITA’
• Livello sintattico-strutturale della risorsa: linguaggio di rappresentazione (es. RDF/OWL,
standard W3C) e linguaggio che modella la struttura della risorsa (es. RDF DATA CUBE
Vocabulary, standard W3C);
• Livello lessicale delle dimensioni, attributi e misure : nome o tipo di dimensioni, misure,
attributi (tipici di risorse statistiche), standardizzati con insiemi di metadati statistici
standard come SDMX;
• Livello dei valori delle dimensioni, attributi e misure : valore delle dimensioni, misure,
attributi, attinti dove possibile da basi di conoscenza note come lo stesso SDMX o Dbpedia
ecc..
• Livello lessicale dei metadati delle risorse: tipologia di metadati con cui descrivere una
risorsa, standardizzati tramite vocabolari riconosciuti come Dublin core, SKOS, FOAF ecc..
• Livello dei valori dei metadati delle risorse : contenuto dei metadati, come il titolo,
l’autore, la data di pubblicazione;
• Livello dei valori dei metadati semantici : gli argomenti trattati nelle risorse,
standardizzati quando possibile, con basi di conoscenza in formato semantico come
Dbpedia, FreeBase, UKAT ecc..
47. info su www.evodevo.it
MODELLARE LA CONOSCENZA PER AUMENTARE
L’INTEROPERABILITÀ DEI LOD INPS
• I dataset INPS hanno una struttura simile alle
tabelle OLAP, ovvero sono dati
multidimensionali;
• Le tabelle OLAP sono trasformate in grafi
OWL attraverso RDF Data Cube Vocabulary.
• Questo approccio consente la conversione di
dati multidimensionali mantenendo le
relazioni tra le dimensioni, le misure e gli
attributi.
• L’Observation è il fenomeno da descrivere,
espresso dal valore della cella, definito
attraverso le relazioni con dimensioni, misure
e attributi.
49. info su www.evodevo.it
RISPOSTA METODOLOGICA AL PROBLEMA DI DEDURRE NUOVA
CONOSCENZA
• STRUTTURA A GRAFO: la struttura stessa dei dati permette di navigarli e
trovare nuovi collegamenti non esplicitati dai produttori dei dati;
• COLLEGAMENTI ESTERNI: i livelli di standardizzazione permettono di collegare i
dati con altre informazioni esterne e dunque dedurre nuovi fatti da tali legami;
• REGOLE LOGICHE: la creazione di restrizioni e regole (causa-effetto) per
organizzare la conoscenza a seconda degli scopi da raggiungere;
• REASONING: i meccanismi di deduzione logica permettono di verificare le
regole e riclassificare le informazioni, scoprendone di nuove.
50. info su www.evodevo.it
SCOPERTA DI NUOVA DEDUZIONE DA LINKED
CLOSED DATA
Evodevo Fraud Detection System
• Strumento per la ricerca di sospetti di frodi all’interno di un sistema.
• Dal DB relazionale al DB semantico.
• Creazione di un’ontologia per la modellazione dei dati.
• Creazione di regole personalizzate (SWRL) per l’individuazione di soggetti
perseguibili per frode, in base all’ambito di applicazione.
• Possibilità di azioni inferenziali sulla base di conoscenza.
51. info su www.evodevo.it
DECISION SUPPORT SYSTEM (DSS) AD USO
DEL COMUNE DI FIRENZE
Il sistema consente di:
• Utilizzare i dati già in possesso del
Comune.
• Trasformare i dati in formato
semantico.
• Conservare i dati in triple (N-
triple).
• Definire regole per
l’individuazione di fasce di
sospetto.
• Classificare gli utenti in base al
grado di sospetto.
• Interrogare il sistema con
interfaccia user-friendly, collegato
all’ endpoint SPARQL del triple
store.
52. info su www.evodevo.it
ESEMPIO DI REGOLA PER SCOPRIRE NUOVE
INFORMAZIONI
Possibili evasori fiscali nel Comune di Firenze
Dato un cittadino iscritto all’ A.I.R.E* C:
C è possibile Evasore di grado Alto se
C possiede utenza elettrica U
and C ha consumo annuo superiore alla soglia S
and C possiede richieste di occupazione del suolo pubblico R
* AIRE = Associazione Italiani Residenti all’Estero
53. info su www.evodevo.it
SCOPRIRE NUOVE INFORMAZIONI PER NUOVE
ANALISI
Con il collegamento tra linked (closed) data e linked (open) data, si possono dedurre nuove
informazioni.
Esempio di reasoning geografico per il Comune di Firenze:
Con i dati dei consumi delle utenze dei
cittadini e i dati geografici di
localizzazione dei cittadini e dei quartieri
si può capire quali di essi sono fuori
soglia dei consumi relativi a quel
quartiere
54. info su www.evodevo.it
SITOGRAFIA
Standard per il Semantic Web: http://www.w3.org/standards/semanticweb/
Vocabolari e ontologie RDF/OWL: http://lov.okfn.org/dataset/lov/
Specifiche tecniche Data Cube Vocabulary: http://www.w3.org/TR/vocab-data-cube/
Linee Guida per utilizzare il protocollo SDMX: http://sdmx.org/wp-content/uploads/2009/01/00_sdmx_content-
oriented_guidelines_2009.pdf
Semantic Web Tutorial: http://www.w3.org/People/Ivan/CorePresentations/SWTutorial/
Strumenti:
http://protege.stanford.edu/
https://github.com/dbpedia-spotlight/dbpedia-spotlight/wiki
http://lodlive.it/
http://stardog.com/
http://virtuoso.openlinksw.com/
http://www.oracle.com/us/products/database/options/spatial/overview/index.html
http://logd.tw.rpi.edu/technology/csv2rdf4lod
Casi d'uso:
http://www.inps.it/portale/default.aspx?iIDLink=43&bi=08&link=Open+Data
http://dati.camera.it/it/linked-data/
http://dati.senato.it/23
http://www.opensanita.it/open-data/2014-02-14-11-44-29
http://www.opensanita.it/naviga-dati/
http://digital-agenda-data.eu/
http://www.opencoesione.gov.it
http://parlamentocasadivetro.openpolis.it
54
55. info su www.evodevo.it
55
RIFERIMENTI
Per informazioni:
Stefano De Luca s.deluca@evodevo.it
Paola De Caro p.decaro@evodevo.it
Claudia Corcione c.corcione@evodevo.it
Evodevo srl
Via dei Castelli Romani 12a
00040 Pomezia (Roma)
Tel. 06 9108509
info@evodevo.it
www.evodevo.it