O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Celi_Di Tomaso presentazione futurodigitale_csipiemonte

360 visualizações

Publicada em

1 A PROVA DI FUTURO giornali,libri e archivi 3.0
Semantica: condividere significati tra archivi digitali
Vittorio Di Tomaso CBDIG

2 Perché le biblioteche digitali non sono “sexy” come quelle analogiche?

3 Perché si può fare di più: ricerca

4 Perché si può fare di più: correlazioni

5 Perché si può fare di più: orizzonti

6 Perché si può fare di più: coinvolgimento

7 Quali sono gli obiettivi: valore d'uso, Integrazione, Esperienza utente

8 Su quali aspetti bisogna lavorare: Semantica, Ricerca federata, Ricerca intelligente

9 Che cosa vogliamo fare….Ricerche federate,Ricerche intelligenti,Navigazione dinamica

10 Accesso ai contenuti tramite search

11 Accesso ai contenuti tramite logiche di experience

12 Accesso ai contenuti tramite api

13 L’ecosistema cultura / Piemonte

14 Modello di riferimento

15 Il risultato…

16 Obiettivo 1: ricerca federata su repository differenti

17 Obiettivo 2: ricerche più intelligenti

18 Obiettivo 3: scoperta e navigazione di relazioni

19 Ontologia: come fare? Una scelta pragmatica

20 Guarini: progetto top down dell’ontologia

21 OBAC – Classi di base

22 OBAC – Alcune relazioni di esempio

23 La stampa: identificazione bottom-up di elementi semantici

24 La stampa: estrazione di entità nominate

25 La stampa: estrazione di entità nominate

26 La stampa: estrazione di entità nominate

27 Una sfida complessa….Estensione temporale, Digitalizzazione

28 Panna o Fanna?

29 I risultati dell’analisi:
4.8000.0000 Articoli analizzati
110.000 Nomi di persona riconosciuti freq > 10
10.000 Nomi di luoghi riconosciuti freq > 10
6.000 Nomi di organizzazioni riconosciuti freq > 10
80% di precisione del risultato

30 Siamo soltanto all’inizio…

31 La vision futura in 4 passi (2012 – 2013)

32 Sappiamo cosa fare….Le ontologie rappresentano
oggi la tecnologia chiave per risolvere i problemi di integrazione e interoperabilità semantica di dati e
conoscenze
L'aspetto più critico riguarda la necessità di acquisire
persone con la competenza e le motivazioni necessarie per fare da ponte tra ricerca e applicazioni

33 Ma in questo momento manca qualcosa….

34 Vogliamo costruire cattedrali….

35 Grazie per l’attenzione!
Vittorio Di Tomaso
Hanno collaborato al progetto: Andrea Bolioli,
Roberto Franchini, Raffaella Ventaglio, Federico
Fissore, Mauro Cappelli, Federico Cairo
Ringraziamo: Andrea Muraca, Francesco Cerchio,
Cristina Mollis, Alessandro Stefani

Publicada em: Mídias sociais
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Celi_Di Tomaso presentazione futurodigitale_csipiemonte

  1. 1. Vittorio Di Tomaso CBDIG Semantica: condividere significati tra archivi digitali Vittorio Di Tomaso CBDIG
  2. 2. Vittorio Di Tomaso CBDIG Perché le biblioteche digitali non sono “sexy” come quelle analogiche? Perché le biblioteche digitali non sono “sexy” come quelle analogiche?
  3. 3. Vittorio Di Tomaso CBDIG Perché si può fare di più: ricerca Le ricerche su Banche Dati in ambito culturale richiedono una conoscenza pregressa dell’argomento Le ricerche su Banche Dati in ambito culturale richiedono una conoscenza pregressa dell’argomento Bisogna già conoscere quello che si sta cercando Bisogna già conoscere quello che si sta cercando
  4. 4. Vittorio Di Tomaso CBDIG Perché si può fare di più: correlazioni Classificazioni precise e rigorose limitano la possibilità di associazioni e collegamenti Classificazioni precise e rigorose limitano la possibilità di associazioni e collegamenti Tendenza a proporre percorsi “specialistici” Tendenza a proporre percorsi “specialistici”
  5. 5. Vittorio Di Tomaso CBDIG Perché si può fare di più: orizzonti L’arte e la cultura sono, di natura, “liberi” nello spazio e nel tempo, mentre musei ed archivi sono mondi “chiusi” L’arte e la cultura sono, di natura, “liberi” nello spazio e nel tempo, mentre musei ed archivi sono mondi “chiusi” Ogni archivio offre una visione “parziale” (ma le visioni possono essere federate) Ogni archivio offre una visione “parziale” (ma le visioni possono essere federate)
  6. 6. Vittorio Di Tomaso CBDIG Perché si può fare di più: coinvolgimento Anche quando disponibili via web, molti archivi culturali adottano un approccio poco orientato alla fruizione Anche quando disponibili via web, molti archivi culturali adottano un approccio poco orientato alla fruizione User experience poco coinvolgente User experience poco coinvolgente
  7. 7. Vittorio Di Tomaso CBDIG Quali sono gli obiettivi
  8. 8. Vittorio Di Tomaso CBDIG Su quali aspetti bisogna lavorare
  9. 9. Vittorio Di Tomaso CBDIG Che cosa vogliamo fare…. Ricerche federate Integrare patrimoni e fonti informative differenti Ricerche intelligenti Comprendere meglio il significato della richiesta dell’utente (per dare risultati più soddisfacenti) Navigazione dinamica Identificare e rendere disponibili relazioni e correlazioni tra elementi appartenti a patrimoni informativi diversi
  10. 10. Vittorio Di Tomaso CBDIG Accesso ai contenuti tramite search •Ricerca  semantica di  contenuti  a testo  libero che,  attraverso la  correlazione di  fonti dati,  consente di  trovare risultati  accedendo a più patrimoni  infomativi •Abilita lettura  trasversale e  cross‐mediale  dei  fenomeni di  interesse •Ricerca  semantica di  contenuti  a testo  libero che,  attraverso la  correlazione di  fonti dati,  consente di  trovare risultati  accedendo a più patrimoni  infomativi •Abilita lettura  trasversale e  cross‐mediale  dei  fenomeni di  interesse • Archivi storici digitalizzati di quotidiani • Archivi storici digitalizzati di quotidiani • Siti web storicizzati • Siti web storicizzati • Foto, Immagini ed Illustrazioni • Foto, Immagini ed Illustrazioni • Materiale correlato disponibil e su altri siti • Materiale correlato disponibil e su altri siti • Libri, riviste, articoli con link diretto a siti di eCommerce • Libri, riviste, articoli con link diretto a siti di eCommerce • Ricerca full-text con individuazione semantica dei concetti ricercati • Ricerca full-text con individuazione semantica dei concetti ricercati Caso d’uso: trove.nla.gov.auCaso d’uso: trove.nla.gov.au Il contenuto culturale può essere “espanso” e collegato  ad elementi di  contesto che  lo rendono in grado di “raccontare” una storia  Il contenuto culturale può essere “espanso” e collegato  ad elementi di  contesto che  lo rendono in grado di “raccontare” una storia 
  11. 11. Vittorio Di Tomaso CBDIG Caso d’uso: Museo TorinoCaso d’uso: Museo Torino Accesso ai contenuti tramite logiche di experience Progetto del Comune di Torino che consente la consultazione di un archivio dei beni artistici della città attraverso una rich-interface web che integra contenuti testuali, immagini e logiche di georeferenziazione •Fruizione dei contenuti attraverso interfacce che garantiscono una user-experience intuitiva e coinvolgente •Logiche di erogazione compatibili con device innovativi (es. smartphone e tablet) •Fruizione dei contenuti attraverso interfacce che garantiscono una user-experience intuitiva e coinvolgente •Logiche di erogazione compatibili con device innovativi (es. smartphone e tablet) La “contaminazione” degli archivi di beni culturali con logiche di fruizione tipiche dell’info-tainment può ampliare il bacino di utenza di contenuti culturali La “contaminazione” degli archivi di beni culturali con logiche di fruizione tipiche dell’info-tainment può ampliare il bacino di utenza di contenuti culturali
  12. 12. Vittorio Di Tomaso CBDIG Caso d’uso: Dati PubbliciCaso d’uso: Dati Pubblici Accesso ai contenuti tramite api • Interfacciamento dei contenuti attraverso API standard che consentano l’interoperabilità con altri servizi attivando correlazioni per: ‐ Creare servizi / applicazioni arricchite con contenuti esterni legati ai medesimi concetti ‐ Esporre i propri contenuti in modo universale ad altri servizi che li possono integrare e diffondere • Interfacciamento dei contenuti attraverso API standard che consentano l’interoperabilità con altri servizi attivando correlazioni per: ‐ Creare servizi / applicazioni arricchite con contenuti esterni legati ai medesimi concetti ‐ Esporre i propri contenuti in modo universale ad altri servizi che li possono integrare e diffondere API Basi Dati pubbliche Basi Dati pubbliche Servizi di Localizzaizone Servizi di Localizzaizone Rich Internet Application che rende fruibili i dati ad un pubblico più vasto rispetto al bacino originario Rich Internet Application che rende fruibili i dati ad un pubblico più vasto rispetto al bacino originario In ambito culturale questa logica può favorire l’integrazione tra i patrimoni suddivisi tra enti, associazioni e fondazioni diverse offrendo un’esperienza digitale di fruizione integrata dei patrimoni In ambito culturale questa logica può favorire l’integrazione tra i patrimoni suddivisi tra enti, associazioni e fondazioni diverse offrendo un’esperienza digitale di fruizione integrata dei patrimoni La logica dell’interoperabilità tramite API è alla base dei principi Open Data per la diffusione dei dati pubblici API
  13. 13. Vittorio Di Tomaso CBDIG L’ecosistema cultura / Piemonte Ontologia dei beni culturaliOntologia dei beni culturali Ricerche federate, interoperabilitàRicerche federate, interoperabilità Motore di ricerca Motore di ricerca API e servizi API e servizi
  14. 14. Vittorio Di Tomaso CBDIG Modello di riferimento ExperienceExperience APIAPI Ontologia • Digitalizzazione / Creazione • Arricchimento semantico Digital Library Modalità di erogazione Casi d’uso Strumenti di ricerca testuale per semplificare l’accesso a contenuti documentali Interfacce multimediali per la fruizione dei contenuti tramite user experience coinvolgente Interoperabilità con altri servizi per arricchire i contenuti con info da altre fonti SearchSearch Contenuti Tradizionali CrowdsourcingCrowdsourcing Utente Recepimento di contenuti e commenti da parte dell’utenza •Facilità di integrazione tra i contenuti •User experience “infotainment- like” •Bacino di fruizione più ampio •Possibilità di abilitare logiche di eCommerce dei contenuti •Facilità di integrazione tra i contenuti •User experience “infotainment- like” •Bacino di fruizione più ampio •Possibilità di abilitare logiche di eCommerce dei contenuti
  15. 15. Vittorio Di Tomaso CBDIG Il risultato…
  16. 16. Vittorio Di Tomaso CBDIG Obiettivo 1: ricerca federata su repository differenti
  17. 17. Vittorio Di Tomaso CBDIG Motore Attuale (Logica tradizionale per keyword) Motore Attuale (Logica tradizionale per keyword) Obiettivo 2: ricerche più intelligenti Approccio Semantico (identificazione dei concetti cercati) Approccio Semantico (identificazione dei concetti cercati) • Trova 30 risultati relativi a Basiliche, Santuari e Chiese , … • Esempio: documenti relativi alla Basilica di Superga, perchè ‐ La Basilica di Superga è un edificio religioso ‐ La Basilica di Superga è del 1731 • Trova 30 risultati relativi a Basiliche, Santuari e Chiese , … • Esempio: documenti relativi alla Basilica di Superga, perchè ‐ La Basilica di Superga è un edificio religioso ‐ La Basilica di Superga è del 1731 Propone collegamenti con le tendenze artistiche sviluppatesi nel periodo e con altre eminenti opere contemporanee Propone collegamenti con le tendenze artistiche sviluppatesi nel periodo e con altre eminenti opere contemporanee Edificio religioso del settecento Edificio religioso del settecento Trova 1 solo risultato contenente la keyword “Edificio Religioso” Trova 1 solo risultato contenente la keyword “Edificio Religioso”
  18. 18. Vittorio Di Tomaso CBDIG Obiettivo 3: scoperta e navigazione di relazioni La comprensione della semantica di  una ricerca consente di “attivare” logiche di navigazione  basate sulle  relazioni tra i concetti La comprensione della semantica di  una ricerca consente di “attivare” logiche di navigazione  basate sulle  relazioni tra i concetti
  19. 19. Vittorio Di Tomaso CBDIG Ontologia: come fare? Una scelta pragmatica Progettazione dell’ontologia sulla base dei metadati di catalogazione (ma in funzione delle esigenze della ricerca delle informazioni) Progettazione dell’ontologia sulla base degli elementi di significato che si trovano nei testi del corpus GUARINI: TOP DOWN LA STAMPA: BOTTOM UP
  20. 20. Vittorio Di Tomaso CBDIG Guarini: progetto top down dell’ontologia OBAC Piemonte è la knowledge base ottenuta istanziando le classi di OBAC nei principali concetti individuali presenti nelle Schede F (fototipi) dell’Archivio Guarini. Il metodo quantitativo è basato sull’estrazione delle stringhe del campo “soggetto” di tali schede, arrestandosi sotto un numero prestabilito di occorrenze del soggetto. OBAC Piemonte è la knowledge base ottenuta istanziando le classi di OBAC nei principali concetti individuali presenti nelle Schede F (fototipi) dell’Archivio Guarini. Il metodo quantitativo è basato sull’estrazione delle stringhe del campo “soggetto” di tali schede, arrestandosi sotto un numero prestabilito di occorrenze del soggetto.
  21. 21. Vittorio Di Tomaso CBDIG OBAC – Classi di base
  22. 22. Vittorio Di Tomaso CBDIG OBAC – Alcune relazioni di esempio
  23. 23. Vittorio Di Tomaso CBDIG Uso di tecnologie semantiche per estrarre informazioni a valore aggiunto Microfilm Copia digitale OCR Indicizzazione full text Analisi semantica Smart search 11 22 33 44 La stampa: identificazione bottom-up di elementi semantici
  24. 24. Vittorio Di Tomaso CBDIG La stampa: estrazione di entità nominate Arricchimento semantico dei documenti tramite il riconoscimento delle entità nominate ("Named Entities"), cioè le persone, i luoghi e le organizzazioni menzionate negli articoli. Un es. di articolo: La Stampa 03-02-1965 Arricchimento semantico dei documenti tramite il riconoscimento delle entità nominate ("Named Entities"), cioè le persone, i luoghi e le organizzazioni menzionate negli articoli. Un es. di articolo: La Stampa 03-02-1965
  25. 25. Vittorio Di Tomaso CBDIG La stampa: estrazione di entità nominate Annotazione manuale effettuata su un corpus di 1800 articoli, dal 1910 al 2005, selezionati prevalentemente dalle prime pagine (582.477 token) Annotazione manuale effettuata su un corpus di 1800 articoli, dal 1910 al 2005, selezionati prevalentemente dalle prime pagine (582.477 token)
  26. 26. Vittorio Di Tomaso CBDIG La stampa: estrazione di entità nominate Training di un Classificatore automatico SVM (Support Vector Machine) Integrazione di Regole manuali di identificazione e disambiguazione, in particolare per il riconoscimento degli Autori Training di un Classificatore automatico SVM (Support Vector Machine) Integrazione di Regole manuali di identificazione e disambiguazione, in particolare per il riconoscimento degli Autori
  27. 27. Vittorio Di Tomaso CBDIG Una sfida complessa…. Estensione temporale L’archivio storico de La Stampa comprende articoli su un periodo temporale di quasi 150 anni (dal 1867 al 2004): non esistono casi analoghi in Italia di analisi semantica di testi su un intervallo diacronico così ampio. Abbiamo dovuto definire una metodologia senza poter fare affidamento su best practice consolidate Digitalizzazione La digitalizzazione di un corpus con queste caratteristiche è molto complessa. Gli inevitabili errori di segmentazione e di estrazione del testo (OCR) hanno un effetto talvolta sostanziale su un successivo strato di analisi linguistica
  28. 28. Vittorio Di Tomaso CBDIG Panna o Fanna?
  29. 29. Vittorio Di Tomaso CBDIG I risultati dell’analisi 4.8000.0000 Articoli analizzati 110.000 Nomi di persona riconosciuti freq > 10 10.000 Nomi di luoghi riconosciuti freq > 10 6.000 Nomi di organizzazioni riconosciuti freq > 10 oltre oltre oltre oltre 80% di precisione del risultatooltre
  30. 30. Vittorio Di Tomaso CBDIG Siamo soltanto all’inizio…
  31. 31. Vittorio Di Tomaso CBDIG La vision futura in 4 passi (2012 – 2013) Realizzare un motore di ricerca sull’intero patrimonio di conoscenza (Cultura k-Search) Realizzare un motore di ricerca sull’intero patrimonio di conoscenza (Cultura k-Search) Estendere il modello metodologico per coprire repository diversiEstendere il modello metodologico per coprire repository diversi Creare una ontologia ombrello (OntoPiemonteCultura) in grado di collegare gli archivi in modalità Open (Cultura LinkedData) Creare una ontologia ombrello (OntoPiemonteCultura) in grado di collegare gli archivi in modalità Open (Cultura LinkedData) Realizzare API di ricerca HTTP / REST che consentano l’accesso libero a terze parti a Cultura k-Search (APPS) Realizzare API di ricerca HTTP / REST che consentano l’accesso libero a terze parti a Cultura k-Search (APPS) 1.1. 2.2. 3.3. 4.4. 20122012 20132013
  32. 32. Vittorio Di Tomaso CBDIG Sappiamo cosa fare…. 1 http://web.cnr.it/commesse/CommessaDescr.html?id_comm=1411 2 http://web.cnr.it/commesse/ModuloPrev.html?id_mod=2059 L'aspetto più critico riguarda la necessità di acquisire persone con la competenza e le motivazioni necessarie per fare da ponte tra ricerca e applicazioni2 Le ontologie rappresentano oggi la tecnologia chiave per risolvere i problemi di integrazione e interoperabilità semantica di dati e conoscenze1
  33. 33. Vittorio Di Tomaso CBDIG Ma in questo momento manca qualcosa….
  34. 34. Vittorio Di Tomaso CBDIG Vogliamo costruire cattedrali….
  35. 35. Vittorio Di Tomaso CBDIG Semantica: condividere significati tra archivi digitali Vittorio Di Tomaso CBDIG Grazie per l’attenzione! Vittorio Di Tomaso Hanno collaborato al progetto: Andrea Bolioli, Roberto Franchini, Raffaella Ventaglio, Federico Fissore, Mauro Cappelli, Federico Cairo Ringraziamo: Andrea Muraca, Francesco Cerchio, Cristina Mollis, Alessandro Stefani

×