Tesi di Laurea Magistrale in Teoria e Tecnologia della comunicazione, Unimib - Valeria Gennari. Presentazione progetto.
DaCENA (Data Context Extraction for New Articles), strumento che fornisce agli utenti approfondimenti contestuali alle notizie giornalistiche, è un progetto che si situa nell'ambito del Data-driven journalism. DaCENA estrae da articoli giornalistici di testate online collegamenti semantici relativi al testo, tali percorsi estratti costituiscono un approfondimento contestuale di articoli giornalistici, sulla base dei dati della LOD cloud, ovvero l’insieme dei dataset pubblicati in formato Linked.
1. Università degli studi di Milano-Bicocca
Corso di Laurea in Teoria e Tecnologia della Comunicazione
Approfondimento contestuale
nel Data-Driven Journalism
e nel progetto DaCENA
Relatore Dott. Palmonari
Correlatore Dott. Cremaschi
Tesi di Valeria Gennari
Matricola 758677AA 2012/2013
2. TEMATICHE TRATTATE
Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 2
IL DATA-DRIVEN JOURNALISM
IL PROGETTO DACENA
L’APPROFONDIMENTO NEL DATA-DRIVEN JOURNALISM
L’APPROFONDIMENTO CONTESTUALE DI DACENA 2.0
DACENA 2.0 CONCLUSIONI E SVILUPPI FUTURI
1
2
3
4
5
3. IL DATA-DRIVEN JOURNALISM
Le caratteristiche proprie del Web 2.0 applicate alle nuove frontiere dell’informazione
digitale veicolano una quantità di dati impressionante. Saperli trattare, comprendere,
elaborare e comunicare sta diventando sempre più importante.
Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 3
Il Data-Driven Journalism
• Disciplina a cavallo tra ricerca e inchiesta
• Utilizzo di fonti aperte e disponibili nel web
• Uso intensivo di tecnologie a supporto
dell’analisi/manipolazione/visualizzazione dati
• Approccio collaborativo, processo trasparente,
fonti sono più autorevoli
4. IL DATA-DRIVEN JOURNALISM
Le caratteristiche proprie del Web 2.0 applicate alle nuove frontiere dell’informazione
digitale veicolano una quantità di dati impressionante. Saperli trattare, comprendere,
elaborare e comunicare sta diventando sempre più importante.
Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 3
Impiego di tecnologie che
sfruttano il modello
reticolare di Internet
User generated content
Trionfo della dimensione
social dei contenuti
Il Data-Driven Journalism
• Disciplina a cavallo tra ricerca e inchiesta
• Utilizzo di fonti aperte e disponibili nel web
• Uso intensivo di tecnologie a supporto
dell’analisi/manipolazione/visualizzazione dati
• Approccio collaborativo, processo trasparente,
fonti sono più autorevoli
6. IL DATA-DRIVEN JOURNALISM
Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 4
DATI
FILTRAGGIO
PRESENTAZIONE
PUBBLICAZIONE
La prima fase è quella della ricerca: reperimento dei dati e loro trasposizione in
formati coerenti con i formati di utilizzo definiti
7. IL DATA-DRIVEN JOURNALISM
Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 4
DATI
FILTRAGGIO
PRESENTAZIONE
PUBBLICAZIONE
La prima fase è quella della ricerca: reperimento dei dati e loro trasposizione in
formati coerenti con i formati di utilizzo definiti
La seconda fase è quella del filtraggio: l’elaborazione dei dati raccolti,
resi processabili attraverso diverse sottofasi di raffinamento, analisi e
elaborazione
8. IL DATA-DRIVEN JOURNALISM
Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 4
DATI
FILTRAGGIO
PRESENTAZIONE
PUBBLICAZIONE
La prima fase è quella della ricerca: reperimento dei dati e loro trasposizione in
formati coerenti con i formati di utilizzo definiti
La seconda fase è quella del filtraggio: l’elaborazione dei dati raccolti,
resi processabili attraverso diverse sottofasi di raffinamento, analisi e
elaborazione
La terza fase è quella della presentazione: vengono rese
visivamente le informazioni processate. L’output sono i dati
analizzati, ripuliti, organizzati e manipolati
9. IL DATA-DRIVEN JOURNALISM
Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 4
DATI
FILTRAGGIO
PRESENTAZIONE
PUBBLICAZIONE
La prima fase è quella della ricerca: reperimento dei dati e loro trasposizione in
formati coerenti con i formati di utilizzo definiti
La seconda fase è quella del filtraggio: l’elaborazione dei dati raccolti,
resi processabili attraverso diverse sottofasi di raffinamento, analisi e
elaborazione
La terza fase è quella della presentazione: vengono rese
visivamente le informazioni processate. L’output sono i dati
analizzati, ripuliti, organizzati e manipolati
L’ultima fase consiste nella pubblicazione: la
costruzione di una narrazione basata sui dati ricavati
h a c o m e o b i e t t i vo i l ra g g i u n g i m e n t o d i
un’informazione approfondita
10. IL PROGETTO DACENA
Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 5
DaCENA - Data Context Extraction for News Articles è un software che associa a un
articolo giornalistico il contesto fattuale estratto da sorgenti di conoscenza aperta disponibili
nel web (Linked Open Data cloud). Le informazioni sul contesto sono dati strutturati che
costituiscono fatti d’interesse riguardanti entità rilevanti nell'articolo. Questi fatti rappresentano
relazioni tra le entità in oggetto dalla semantica ben definita. L’approccio* si basa su un
processo caratterizzato da 3 passaggi:
Scraping e annotazione semantica della base documentale
INPUT: testo dell’articolo
OUTPUT: entità rilevanti estratte dall’articolo e identificate con URI
http://dbpedia.org/resource/Barack_Obama
http://dbpedia.org/resource/Election
http://dbpedia.org/resource/John_Boehner
L’annotazione è realizzata con il sistema di Data Linking Dbpedia
Spotlight, che annota le menzioni di entità di Dbpedia all’interno di
testi, collegando dati non strutturati ai repository di Dbpedia.
Realizzato in Tecniche di annotazione di news mediante dati fattuali estratti dall’Open Data Cloud (A.Polidoro)
Gli esempi utilizzati nella sperimentazione del software DaCENA sono tratti dal NYTimes, utilizzato come sorgente di
riferimento. La sorgente Linked Open Data è invece Dbpedia (en).
1
*
11. IL PROGETTO DACENA
Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 6
Estrazione del grafo RDF, che
rappresenta l’insieme di tutte
le associazioni semantiche
relative all’articolo
INPUT: URI delle entità estratte
OUTPUT: percorsi tra entità
estratte da Dbpedia
2
3 Valutazione dei percorsi estratti e
selezione delle associazioni
rilevanti tramite lo sviluppo di un
ranking dei percorsi.
INPUT: totalità dei percorsi
OUTPUT: percorsi semantici ridotti
ENTITÀ ESTRATTE
12. IL PROGETTO DACENA
Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 6
Estrazione del grafo RDF, che
rappresenta l’insieme di tutte
le associazioni semantiche
relative all’articolo
INPUT: URI delle entità estratte
OUTPUT: percorsi tra entità
estratte da Dbpedia
2
3 Valutazione dei percorsi estratti e
selezione delle associazioni
rilevanti tramite lo sviluppo di un
ranking dei percorsi.
INPUT: totalità dei percorsi
OUTPUT: percorsi semantici ridotti
PERCORSI SEMANTICI
13. IL PROGETTO DACENA
Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 6
Estrazione del grafo RDF, che
rappresenta l’insieme di tutte
le associazioni semantiche
relative all’articolo
INPUT: URI delle entità estratte
OUTPUT: percorsi tra entità
estratte da Dbpedia
2
3 Valutazione dei percorsi estratti e
selezione delle associazioni
rilevanti tramite lo sviluppo di un
ranking dei percorsi.
INPUT: totalità dei percorsi
OUTPUT: percorsi semantici ridotti
PERCORSI SEMANTICI RILEVANTI
14. DACENA DACENA 2.0
Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 7
Valutazione dell’approccio sulla qualità dei percorsi semantici estratti (5 articoli del
NYTimes)
Non è stato considerato un modulo preposto alla visualizzazione dei percorsi semantici
DACENA 2.0
1
2
Nella prima fase sperimentale di DaCENA
La seconda fase nasce per approfondire il contesto dello strumento e le basi teoriche a cui fa
riferimento:
• Consolidamento obiettivi
• Comparazione con lavori analoghi
• Definizione del target
• Interfaccia per rendere l’applicazione fruibile agli utenti finali
• Valutazione dell’efficacia del progetto nella sua totalità
15. DACENA DACENA 2.0
Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 7
Valutazione dell’approccio sulla qualità dei percorsi semantici estratti (5 articoli del
NYTimes)
Non è stato considerato un modulo preposto alla visualizzazione dei percorsi semantici
DACENA 2.0
1
2
Nella prima fase sperimentale di DaCENA
La seconda fase nasce per approfondire il contesto dello strumento e le basi teoriche a cui fa
riferimento:
• Consolidamento obiettivi
• Comparazione con lavori analoghi
• Definizione del target
• Interfaccia per rendere l’applicazione fruibile agli utenti finali
• Valutazione dell’efficacia del progetto nella sua totalità
16. ANALISI COMPARATIVA – LAVORI DI DATA
DRIVEN JOURNALISM
Il framework di analisi/comparazione
di lavori di DDJ ha portato alla luce
un quadro significativo di obiettivi,
funzionalità, metodi e tecniche da
cui è emerso che:
• I lavori in ambito DDJ si dividono
in inchieste giornalistiche,
applicazioni web-based e data
tool
• I team sono variegati e composti
da giornalisti, esperti di dati e
fonti, sviluppatori, grafici. La
collaborazione tra diverse
discipline è un tratto comune e
fondamentale
Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 8
1 - Progetto 2 - Overview
7 - N.
Fonti
The Pulse of
Oakland
Progetto di Brittany Lynn Shell, Berekley Graduate
School of Journalism - 2013. Sei storie, mappe
interattive, foto e un breve video per analizzare la
correlazione tra disuguaglianze, reddito e salute in
Oakland.
2
10 Years of
Murders and
Shootings
Progetto di Casey Thomas e Daniel Denvir, AXIS PHILLY
- 2013. Una mappa interattiva per esplorare dieci anni di
omicidi a Philadelphia, tra le città più violente al mondo.
1
The Guardian
interactive map
showing Gay right
Progetto del The Guardian US interactive team - 2012.
Un’analisi radiale stato per stato della situazione attuale
dei diritti concessi agli omosessuali negli Stati Uniti.
3
I 20 anni dell'era
Berlusconi
Inchiesta di R. Mastrolonardo e G. Romeo, Data Wired -
2013. Sullo stampo del Datablog del Guardian, Wired
racconta attraverso 15 grafici il ventennio italiano che
passerà alla storia come l'età berlusconiana.
5
La mappa degli
obiettori di
coscienza in Italia
Inchiesta di J. Ottaviani, lfattoquotidiano.it - 2012.
Grafici e mappe per valutare la situazione delle regioni
italiane in materia di interruzione volontaria di
gravidanza.
1
Message Machine
Progetto di ProPublica – 2012 che raccoglie, analizza e
mostra un’ampia raccolta di mail inviate a scopo
propagandistico durante la campagna elettorale delle
ultime elezioni americane. Gli utenti hanno partecipato
attivamente alla creazione dell'infografica inviando le
………………………………….
1
CONFERENZE/AWARDS/PAPER INTERNAZIONALI E ITALIANI
20 PROGETTI SELEZIONATI PER L’ANALISI COMPARATIVA
14 PARAMETRI DI CLASSIFICAZIONE
17. L’APPROFONDIMENTO NEL DATA
JOURNALISM E IN DACENA 2.0
Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 9
L’approfondimento è alla base di qualsiasi
lavoro di DDJ e si declina in:
• Approfondimento quantitativo - dati
aggregati al fine di indagare in maniera
analitica un fenomeno
• Approfondimento relazionale – dati volti
ad approfondire contestualmente i
fenomeni
Nei lavori che abbracciano il principio
dell’approfondimento contestuale i dati
utilizzati ed elaborati permettono di
accedere al contesto del fenomeno
esaminato.
DaCENA 2.0 appartiene alla classe di
progetti che forniscono approfondimenti
contestuali sulla base dell’analisi relazionale.
1 - Progetto 5 - Principio 6 - Tecniche
The Pulse of
Oakland
Analisi quantitativa
Integrazione di dati
quantitativi, su base (unità di
aggregazione principale del/i
fenomeno/i) spaziale
10 Years of
Murders and
Shootings
Analisi quantitativa
Integrazione di dati
quantitativi, su base spaziale e
temporale
The Guardian
interactive map
showing Gay
right
Analisi quantitativa
Integrazione di dati
quantitativi, su base spaziale
Argentina’s
Senate Expenses,
2004-2013
Analisi quantitativa
Presentazione tramite grafici e
testo
Connected China
Analisi quantitativa
e relazionale
Integrazione di dati quantitativi
su base temporale e di entità
altre + network analysis
Le Pariteur
Analisi quantitativa
e relazionale
Integrazione quantitativa su
base di entità altre +
esplorazione relazione del
fenomeno
Muckety
………………..
Analisi relazionale
………………………..
Network analysis
…………………………………………
18. L’APPROFONDIMENTO CONTESTUALE IN
DACENA 2.0
Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 10
Problematiche
GIORNALISMO
DIGITALE
Questioni sollevate dalle tecnologie emergenti in relazione
all’informazione: qualità, attendibilità e accuratezza dell’informazione
• Notizie fruite sempre più tramite i social network*
• Rapidità, casualità e scarsa attenzione nell’acquisizione delle informazioni*
• Infobesità*
• Notizie parziali, decontestualizzate e non verificate
• Quando al lettore mancano elementi per valutare l’origine e l’ampiezza di un
fatto, il fatto viene elaborato in maniera più superficiale e quindi parziale*
Pew Research Center’s Journalism Project: The role of news on Facebook, common yet incidential
Massachusetts Inst. of Technology: Infobesity: Exploring the cognitive and physical impacts of information Overconsumption
Watts, Shankaranarayanan, Even: Data quality assessment in context: A cognitive perspective
*
Obiettivi
• Presentare in modo efficace il contesto dell’articolo
• Gli approfondimenti incrementano l’accuratezza della notizia, arricchiscono l’informazione,
permettono di elaborare il contenuto della notizia in modo più dettagliato e approfondito.
19. DACENA 2.0
Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 11
La creazione del prototipo DaCENA 2.0* (in via di sviluppo) è volta a fornire allo strumento
un’interfaccia che
• Realizzi gli obiettivi analizzati e definiti nella loro totalità
• Renda evidenti e fruibili le potenzialità delle informazioni fornite dall’applicazione
*In collaborazione con Density Design – Dipartimento di Design, Politecnico di Milano
L’interfaccia prevede due modalità di visualizzazione, a partire dalla homepage:
20. DACENA 2.0
Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 12
A GRAFO
1
Entità principale
estratta
Selezione da parte
dell’utente dell’entità
target e personalizzazione
Percorsi semantici
nel grafo:
Entity name
Link Type
Giallo entità nell’articolo
Grigio entità esterne
21. DACENA 2.0
Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 13
VISUALIZZAZIONE GLOBALE2
Esplorazione di tutta la
rete dei percorsi disponibili
Funzionalità come nella
prima tipologia
Zoom e interazione diretta
22. CONCLUSIONI E SVILUPPI FUTURI
Approfondimento contestuale nel Data-Driven Journalism e nel progetto DaCENA 14
• DaCENA Da proof of concept con funzionalità di base, a prototipo (in sviluppo)
• La valutazione dei percorsi estratti: i miglioramenti dovranno riguardare le tecniche di
individuazione di percorsi semantici più rilevanti
• Lo studio della letteratura e la realizzazione del framework di analisi ha permesso la
riqualificazione dell’applicazione: l’inserimento nello scenario del Data Driven Journalism, lo
sviluppo del quadro di riferimento, la valutazione dei competitors, la definizione di obiettivi
e target.
• Il prototipo non è concluso: non fruibile su un numero di articoli minimo per garantire
un’interazione completa
Conclusioni
Sviluppi Futuri
• Realizzare una fase di test con utenti allo scopo di valutare meglio il grado di efficacia (aspetti
cognitivi e di usabilità) dell’applicazione
• Dbpedia (en) Dbpedia (it)
• Applicazione a domini diversi dal giornalismo