SlideShare uma empresa Scribd logo
1 de 47
Georg Rehm
georg.rehm@dfki.de
DFKI GmbH, Berlin
#DKT17: Kuratieren im Zeitalter der KI
12. Oktober 2017 – Humboldt Universität zu Berlin
Kuratieren im Zeitalter der KI
Semantic Media Web 2014
Einführung des Konzepts „Digitale Kuratierung“
Semantic Media Web 2015 – #DKT15
Vorstellung des neuen BMBF-Projekts
„Digitale Kuratierungstechnologien“
Semantic Media Web 2016 – #DKT16
Bergfest – erste Ergebnisse
Semantic Media Web 2017 – #DKT17
Der Projektabschluss steht kurz bevor.
Überblick
• Was ist digitale Kuratierung?
• BMBF-Projekt Digitale Kuratierungstechnologien
• Zusätzliche Branchen und Anwendungsszenarien
• Persönliche Kuratierungstechnologien
• Schlussfolgerungen
#DKT17 – 12. Oktober 2017 3
Digitale Medien im Jahr 2017
#DKT17 – 12. Oktober 2017 4
#DKT17 – 12. Oktober 2017 5
#DKT17 – 12. Oktober 2017 6
#DKT17 – 12. Oktober 2017 7
#DKT17 – 12. Oktober 2017 8
Digitale Medien im Jahr 2017
• Das WWW begann 1989 als eine Art digitales Archiv
• 2017: Hochgradig dynamische Informations-,
Kommunikations- und E-Commerce-Maschine
• Milliarden von Nutzern, diverse Typen von Endgeräten
• Content ist ein wichtiger Treibstoff der Maschine
• Immer breitere Diversifizierung (Branchen und Nischen)
• Politische, gesellschaftliche und ökonomische Relevanz
• In zahlreichen Branchen und Bereichen herrscht sehr
großer Druck, regelmäßig Content zu publizieren
• Große Herausforderung: Effizienter Umgang mit Content
#DKT17 – 12. Oktober 2017 9
KI im Jahr 2017
#DKT17 – 12. Oktober 2017 10
#DKT17 – 12. Oktober 2017 11
#DKT17 – 12. Oktober 2017 12
#DKT17 – 12. Oktober 2017 13
#DKT17 – 12. Oktober 2017 14
Daten Intelligenz
Aktuelle Durchbrüche mit maschinellen Lernverfahren (Deep Learning)
Ebenfalls noch immer im Einsatz: symbolische, regelbasierte Methoden
Künstliche Intelligenz
• Selbstfahrende Autos, Robotik, Bilderkennung, maschinelle Übersetzung
• Ermöglicht durch tiefe Lernverfahren (neuronale Netze)
• Immenses Potenzial für Disruptionen in allen Branchen
• Tiefes Sprachverstehen – nächste große Herausforderung der KI-Forschung!
Was ist digitale Kuratierung?
#DKT17 – 12. Oktober 2017 15
Was ist digitale Kuratierung?
#DKT17 – 12. Oktober 2017
Information
Information
Information
Information
Information
Information
Information
Information
Information
Information
16
Was ist digitale Kuratierung?
#DKT17 – 12. Oktober 2017
Information
Information
Information
Information
Information
Information
Information
Information
Information
? ?
?
?Information
17
Was ist digitale Kuratierung?
#DKT17 – 12. Oktober 2017
Information
Information
Information
Information
Information
Information
Information
Information
Information
? Information
OutputInput SoftwareProzesse
?
?
?
18
Branchen
Input Prozesse Software Output
Tweet Analysieren Textverarbeitung Zeitungsartikel
Zeitungsartikel Auswählen Präsentationen Multimedia-Website
Agenturmeldung Fokussieren Tabellenkalkulation TV-Beitrag
Facebook-Meldung Überarbeiten Email Ausstellungskatalog
Suchergebnis Einlesen Browser Mobile Applikation
Email Schreiben Groupware Mashup (z.B. Karte)
SMS Gestalten Branchenapplikationen Textbeitrag
Konzept Recherchieren CMS Konzept
Textdateien Bewerten ECMS Zeitstrahl
Video Evaluieren CRM Fachartikel
Karte Ordnen Unternehmens-Software Studie
Stockfotos Sortieren Grafik-/Layout-Software Präsentation
In-house Datenbank Strukturieren Telefonie Faktensammlung
Kalendereintrag Zusammenfassen etc. Exponatsartikel
Spreadsheets Kürzen Analysen
Archiv Übersetzen etc.
etc. Informieren
Kombinieren
Abstrahieren
Einordnen
Visualisieren
Generieren
Annotieren
Referenzieren
etc.
Beobachtungen
• Content: textzentriert, mehrsprachig, multimedial
• Kuratierung: zeit- und wissensintensiv, interdisziplinär,
evtl. durchgeführt in verteilten Teams
• Branche: domänen-/branchenspezifische Anforderungen
• Einschränkung: Traditionelle CMS-Systeme bieten
kaum Unterstützung für Kuratierungsprozesse!
• Sprachtechnologie kann helfen – Kombinierung von
Komponenten zu branchenspezifischen Workflows
Das BMBF-Projekt Digitale
Kuratierungstechnologien
#DKT17 – 12. Oktober 2017 20
DKT Kick-off-Veranstaltung – 25. September 2015
Georg Rehm und Felix Sasaki. “Digital Curation
Technologies.” In Proceedings of the 19th Annual
Conference of the European Association for Machine
Translation (EAMT 2016), Riga, Lettland, Mai 2016
Georg Rehm und Felix Sasaki. “Digitale Kuratierungstechnologien – Verfahren für die
effiziente Verarbeitung, Erstellung und Verteilung qualitativ hochwertiger
Medieninhalte.” In Proceedings der Frühjahrstagung der Gesellschaft für
Sprachtechnologie und Computerlinguistik (GSCL 2015), S. 138-139, Duisburg, 2015
• Unterstützung und Optimierung digitaler Kuratierung durch
Sprach- und Wissenstechnologien.
• Entwicklung innovativer Prototypen bei den KMU-Partnern.
• Weiterentwicklung der DFKI-Technologien und Transfer mittels
Plattform für digitale Kuratierungstechnologien.
Sprach- und Wissenstechnologien
Kuratierungstechnologien
Branchentechnologien
Plattformtechnologie
Branchenlösungen
Plattform für digitale Kuratierungstechnologien
Broker REST API
Kuratierungsservice 1
Kuratierungsservice 2
Client nutzt
das API
Externer
Service 1
Externer
Service 2
Client nutzt
das API
Client nutzt
das API
Client nutzt
das API
Kuratierungs-Workflow
Output
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .
@prefix itsrdf: <http://www.w3.org/2005/11/its/rdf#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix geo: <http://www.w3.org/2003/01/geo/wgs84_pos/> .
@prefix nif: <http://persistence.uni-leipzig.org/nlp2rdf/ontologies/nif-core#> .
<http://link.omitted/documents/document1#char=0,26>
a nif:RFC5147String , nif:String , nif:Context ;
nif:beginIndex "0"^^xsd:nonNegativeInteger ;
nif:endIndex "26"^^xsd:nonNegativeInteger ;
nif:isString "Welcome to Berlin in 2016. "^^xsd:string ;
dfkinif:averageLatitude "52.516666666666666"^^xsd:double ;
dfkinif:averageLongitude "13.383333333333333"^^xsd:double ;
dfkinif:stdDevLatitude "0.0"^^xsd:double ;
dfkinif:stdDevLongitude "0.0"^^xsd:double ;
nif:meanDateRange "20160101010000_20170101010000"^^xsd:string .
<http://link.omitted/documents/document1#char=21,25>
a nif:RFC5147String , nif:String ;
itsrdf:taIdentRef <http://link.omitted/ontologies/nif#date=20160101000000_20170101000000> ;
nif:anchorOf "2016"^^xsd:string ;
nif:beginIndex "21"^^xsd:nonNegativeInteger ;
nif:endIndex "25"^^xsd:nonNegativeInteger ;
nif:entity <http://link.omitted/ontologies/nif#date>.
<http://link.omitted/documents/#char=11,17>
a nif:RFC5147String , nif:String ;
nif:anchorOf "Berlin"^^xsd:string ;
nif:beginIndex "11"^^xsd:nonNegativeInteger ;
nif:endIndex "17"^^xsd:nonNegativeInteger ;
itsrdf:taClassRef <http://dbpedia.org/ontology/Location> ;
nif:referenceContext <http://link.omitted/documents/#char=0,26> ;
geo:lat "52.516666666666666"^^xsd:double ;
geo:long "13.383333333333333"^^xsd:double ;
itsrdf:taIdentRef <http://dbpedia.org/resource/Berlin> .
NLP Interchange
Format (NIF)
“Welcome to Berlin in 2016.”
• RDF/OWL-basiertes Format für NLP-
Anwendungen
• Ermöglicht Interoperabilität
• Durch pures RDF „natürliche“
Integration von Linked-Data-Daten
• Entwickelt von der Universität Leipzig
• Plattform unterstützt neben NIF auch
Web Annotations
Prototypisch implementierte Plattform und Services
• Durch (Semi-)Automatisierung der Kuratierungsprozesse zeitliche
und finanzielle Aufwände reduzieren
• Flexible, robuste, skalierbare Services
• Gemeinsamer Bau von Prototypen (proofs-of-concept)
• Modulare Inhalte in neuen Produktionen aggregieren
• Interoperabilität durch generische APIs
• Human in the loop
Prototypische Services
#DKT17 – 12. Oktober 2017 23
NER, Linking, Geolokalisierung
Technologien für Digitale Medien – Georg Rehm
...
In the Viking colony of Iceland,
an extraordinary vernacular
literature blossomed in the 12th
through 14th centuries
...
...
The ships were scuttled there
in the 11th century, to block a
navigation channel and thus
protect Roskilde, then
Copenhagen from seaborne
assault
...
...
Viking Age inscriptions have
also been discovered on the
Manx runestones on the
Isle of Man.
…
Plain Text NIF-Anreicherung Visualisierung
http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=ner http://http://dev.digitale-kuratierung.de/admini/pages/geolocalization.php
• Modus 1: Modell-basiert (für Domänen, für
die annotierte Trainingsdaten verfügbar sind)
• Modus 2: Wörterbuch-basiert (für Domänen,
für die lediglich Namenslisten verfügbar sind)
• Basiert auf OpenNLP (mit NIF-Integration)
• Entity-Linking durch SPARQL-Querys auf DBPedia.
• Für Lokationen werden GPS-Koordinaten bezogen.
• Es werden Durchschnittsangaben berechnet auf
Dokumentebene (über alle Lokationen), um diese auf
einer Karte visualisieren zu können.
Geolokalisierung als visuelles Zusammenfassen!
53 Technologien für Digitale Medien – Georg Rehm
NER und Linking
• http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=dict
• Falls lediglich Listen von Namen oder Termen und deren URIs in einer
Ontologie zur Verfügung stehen.
• http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=ner
• Falls annotierte Trainingsdaten zur Verfügung stehen
auf neuem Input nutzbar
(auch gemeinsam)
statistisches
NER-Modell
Datenbank-Dump der
Mendelsohn-Briefe
Hohe Qualität
Benötigt annotierte Daten
Mittlere Qualität
Benötigt weniger annotierte Daten
• Falls – z.B. bei Spezialdomänen – weder das eine (A) noch das andere (B)
vorliegt, können potenzielle Entitäten in Kollektionen berechnet werden.
• Diese Liste kann vom Wissensarbeiter überprüft und anschließend als
Wörterbuch (A) eingesetzt werden.
Mittlere Qualität
Menschliche Intervention notwendig
Benötigt keine annotierten Daten
A B
C
• Linking per Extraktion der DBpedia-URI
• NE-Typspezifische SPARQL-Querys für
Personen (Geburtsdatum), Lokationen
(Koordinaten), Organisationen (Typ)
• Wörterbuch kann URIs enthalten
54 Technologien für Digitale Medien – Georg Rehm
Zeitausdrücke
...
The ships were scuttled there
in the 11th century, to block a
navigation channel and thus
protect Roskilde, then
Copenhagen from seaborne
assault
...
...
Viking Age inscriptions have
also been discovered on the
Manx runestones on the
Isle of Man.
...
...
In the Viking colony of Iceland,
an extraordinary vernacular
literature blossomed in the 12th
through 14th centuries
…
900
1600
http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=temp
http://dev.digitale-kuratierung.de/admini/pages/timelining.php
Plain-Text NIF-Anreicherung Visualisierung
• Sortiert Dokumente auf einer
chronologischen Skala.
• Regelbasiertes System, um
unsere Zielsprachen
bestmöglich bedienen zu
können (EN, DE).
• Analyse von Zeitausdrücken
in einem Dokument.
• Berechnet Durchschnittswerte
und Intervalle.
• Plan: Mechanismus für
nutzerbasierte Regeln.
• Verwandte Arbeiten: SUTime,
HeidelTime, Tango, Tarsgi.
55
Maschinelle Übersetzung
Technologien für Digitale Medien – Georg Rehm
Workflow
Language &
Translation
Models trained
on DGT, News,
Europarl, TED
Herr Modi befindet sich auf einer fünftägigen
Reise nach Japan, um die wirtschaftlichen
Beziehungen mit der drittgrößten
Wirtschaftsnation der Welt zu festigen.
Mr Modi is located on a five-day trip to Japan to
strengthen the economic ties with the third largest
economy in the world.
Named Entity
Recognition
Entity Linking
Temporal
Expressions
Metadata
Processing
Post-Edit
Retraining
Beispiel
• Robuste, adaptierbare MT-Modelle (nutzen Moses, Cdec, Giza++, SRILM etc.)
• Parallele und monolinguale Korpora: Europarl, DGT-TM, TED, UN, Newscrawl u.a.
• Kombination mit anderen DKT-Services (Summariser, NER, Temporal Analyser); ITS 2.0, NIF
• Diverse Linked-Data-Datenquellen unterstützen MT (z.B. Dbpedia, BabelNet, WordNet)
Ankit Srivastava, Georg Rehm, and Felix Sasaki. Improving Machine
Translation through Linked Data. The Prague Bulletin of Mathematical
Linguistics, 108(1):355-366, June 2017. Proceedings of the 20th Annual
Conference of the European Association for Machine Translation (EAMT 2017).
Workflow
Language &
Translation
Models trained
on DGT, News,
Europarl, TED
56
Textzusammenfassen
Technologien für Digitale Medien – Georg Rehm
Die Aktie der RWE AG fiel am Donnerstag um 0,21% auf 19,16 EUR und schwankte am
Handelstag zwischen 19,08 und 19,32 EUR. Das Handelsvolumen der Aktie lag bei 1,79
Millionen Aktien und so unter dem 52-Wochen und 150-Tagesvolumen von 3,40 Millionen
bzw. 3,96 Millionen Aktien. Im letzten Monat und den letzten 3 Monaten verlor die RWE-
Aktie 3,79% bzw. 18,95% und in den letzten 3 Tagen 3,55%. Das PE und PB-Verhältnis der
Unternehmensaktie liegt aktuell bei 11,44 bzw. 1,29, während die historischen PE und PB-
Werte jeweils bei 11,77 bzw. 2,13 liegen.
Im letzten Monat und den letzten
3 Monaten verlor die RWE-Aktie
3,79% bzw. 18,95% und in den
letzten 3 Tagen 3,55%.
• Kuratierungsservice rankt Sätze – basierend auf div.
Features – hinsichtlich ihrer Wichtigkeit.
• Modul ist in der Entwicklung.
• Beispiel: Artikel über den fallenden Aktienkurs von
RWE (Daten stammen von Condat).
• Ausblick: Integration der Analyseergebnisse anderer
DKT-Services in den Algorithmus.
57
Semantic Storytelling
• Eingabe: Kohärente, in sich geschlossene Textkollektion
• Ausgabe: Semantisch angereicherte Kollektion
• Idee: Aufgabenspezifisch multiple Rezeptionspfade
generieren, vorschlagen, präsentieren
• Lösung: Identifizierung, Ranking und Empfehlung
sinnvoller, überraschender Hypertextpfade
• Es gibt noch zahlreiche Herausforderungen.
Technologien für Digitale Medien – Georg Rehm 58
Julian Moreno Schneider, Peter Bourgonje, Jan Nehring, Georg Rehm, Felix Sasaki, and Ankit
Srivastava. Towards Semantic Story Telling with Digital Curation Technologies. In Larry
Birnbaum, Octavian Popescuk und Carlo Strapparava, Hrsg., Proceedings of Natural Language
Processing meets Journalism - IJCAI-16 Workshop (NLPMJ 2016), New York, Juli 2016.
Peter Bourgonje, Julian Moreno Schneider, Georg Rehm und Felix Sasaki. Processing
Document Collections to Automatically Extract Linked Data: Semantic Storytelling Technologies
for Smart Curation Workflows. In Aldo Gangemi und Claire Gardent, Hrsg., Proceedings of the
2nd International Workshop on Natural Language Generation and the Semantic Web
(WebNLG 2016), S. 13-16, Edinburgh, UK, Sept. 2016. Association for Comp.Linguistics.
Peter Bourgonje, Julian Moreno-Schneider, Jan Nehring, Georg Rehm, Felix Sasaki
und Ankit Srivastava. “Towards a Platform for Curation Technologies: Enriching Text
Collections with a Semantic-Web Layer.” In Harald Sack, Giuseppe Rizzo, Nadine
Steinmetz, Dunja Mladenić, Sören Auer und Christoph Lange, Hrsg., The Semantic
Web: ESWC 2016 Satellite Events, Juni 2016.
Storytelling
Wunschfunktionalität bei den Partnern: Semantic Storytelling
• Eingabe: Kohärente, in sich geschlossene Textkollektion
• Ausgabe: Semantisch angereicherte Kollektion
• Idee: Aufgabenspezifisch multiple Rezeptionspfade
generieren, vorschlagen, präsentieren
• Lösung: Identifizierung, Ranking und Empfehlung
sinnvoller, überraschender Hypertextpfade
• Derzeit noch experimentelle Avantgarde-Technologie
• Es gibt noch zahlreiche Herausforderungen ...
#DKT17 – 12. Oktober 2017 24
RDF DB
RDF DB
Semantic Storytelling
Backend
Authoring Environment
iOS App Android AppHTML5ePub …
• Input: Self-contained documentcollection
• Example:Mendelsohn letters,2796 documents,
written in German, English,French
• Assists the editor in putting together stories based on
the semantic analyses
• Enables the construction of new stories, for example,
by (1) focussing on the specific requirements of
differenttext types such as biography or travelogue
or (2) through highlighting and recommending to the
human expert specific relationships between entities
• Automatic transformation of RDF database contents
into play-outformats for different channels and media
Semantic Storytelling: Analysis and Annotation Steps
• Language identification (for cross-lingual processing)
• Temporal expression analysis (TimeX)
• Geographic location analysis (GeoX)
• Participants and actors analysis (Person X)
• Coreference analysis
• Event detection (cross-lingual,including German and
French, through machine translation)
• Mode of transportation analysis
• Identification of MovementAction Events out of the set of
identified events (filtering)
Experimental
Storytelling Dashboard
Beispiel: Die Mendelsohn-Briefe
Experiment:
Überführung einer
Sammlung von Briefen
in einen Reisebericht
Georg Rehm, Julian Moreno Schneider,
Peter Bourgonje, Ankit Srivastava, Jan
Nehring, Armin Berger, Luca König, Sören
Räuchle, and Jens Gerth. Event Detection
and Semantic Storytelling: Generating a
Travelogue from a large Collection of
Personal Letters. In Tommaso Caselli, Ben
Miller, Marieke van Erp, Piek Vossen,
Martha Palmer, Eduard Hovy, and Teruko
Mitamura, editors, Proceedings of the
Events and Stories in the News Workshop,
Vancouver, Canada, August 2017.
Association for Computational Linguistics.
Co-located with ACL 2017.
#DKT17 – 12. Oktober 2017 26
Beispiel: Die Mendelsohn-Briefe
#DKT17 – 12. Oktober 2017 27
Georg Rehm, Julian Moreno Schneider, Peter Bourgonje, Ankit Srivastava, Jan Nehring, Armin Berger, Luca König, Sören Räuchle, and Jens Gerth.
Event Detection and Semantic Storytelling: Generating a Travelogue from a large Collection of Personal Letters. In Tommaso Caselli, Ben Miller,
Marieke van Erp, Piek Vossen, Martha Palmer, Eduard Hovy, and Teruko Mitamura, editors, Proceedings of the Events and Stories in the News
Workshop, Vancouver, Canada, August 2017. Association for Computational Linguistics. Co-located with ACL 2017.
Branche: Öffentliche Archive
#DKT17 – 12. Oktober 2017 28
Julian Moreno-Schneider, Ankit Srivastava, Peter Bourgonje, David Wabnitz, and Georg Rehm. Semantic Storytelling, Cross-
lingual Event Detection and other Semantic Services for a Newsroom Content Curation Dashboard. In Octavian Popescu and
Carlo Strapparava, editors, Proceedings of Natural Language Processing meets Journalism - EMNLP 2017 Workshop (NLPMJ
2017), Copenhagen, Denmark, September 2017. 7. September.
Branche: Journalismus
Branche: Museen,
Showrooms, Ausstellungen
#DKT17 – 12. Oktober 2017 29
Georg Rehm, Jing He, Julian Moreno Schneider, Jan Nehring, and Joachim Quantz. Designing User Interfaces
for Curation Technologies. In Sakae Yamamoto, editor, Human Interface and the Management of Information:
Information, Knowledge and Interaction Design, 19th International Conference, HCI International 2017, number
10273 in Lecture Notes in Computer Science (LNCS), pages 388-406, Vancouver, Canada, July 2017. Springer.
#DKT17 – 12. Oktober 2017 30
Georg Rehm, Julián Moreno Schneider, Peter Bourgonje, Ankit Srivastava, Rolf Fricke, Jan Thomsen, Jing He,
Joachim Quantz, Armin Berger, Luca König, Sören Räuchle, Jens Gerth, and David Wabnitz. Different Types of
Automated and Semi-Automated Semantic Storytelling: Curation Technologies for Different Sectors. In Georg Rehm
and Thierry Declerck, editors, Language Technologies for the Challenges of the Digital Age: Proceedings of the
GSCL Conference 2017, Lecture Notes in Artificial Intelligence (LNAI), Heidelberg etc., September 2017. Gesellschaft
für Sprachtechnologie und Computerlinguistik e.V., Springer. 13.-15. September 2017.
Branche: TV, Web-TV, Medien
Kuratierungstechnologien für
zusätzliche Branchen und
Anwendungsfälle
#DKT17 – 12. Oktober 2017 31
• BMBF-Projekt Digitale Kuratierungstechnologien:
– Museen, Showrooms, Ausstellungen
– TV, Web-TV, Medien
– Öffentliche Archive
– Journalismus
#DKT17 – 12. Oktober 2017 32
• BMBF-Projekt Digitale Kuratierungstechnologien:
– Museen, Showrooms, Ausstellungen
– TV, Web-TV, Medien
– Öffentliche Archive
– Journalismus
• Außerdem Kuratierungstechnologien konzipiert für:
– Bibliothekswissenschaft und Digital Libraries
– Customer-Relationship-Management (u.a. Chatbots)
– Juristische und regulatorische Inhalte
– Medizinische Inhalte
– Digital Humanities
– Film- und Kinobranche
#DKT17 – 12. Oktober 2017 33
Clemens Neudecker und Georg Rehm. „Digitale Kuratierungstechnologien für Bibliotheken“.
Zeitschrift für Bibliothekskultur 027.7, Open Access. Nov. 2016.
Georg Rehm. Der Mensch bleibt im Mittelpunkt – Smarte Technologien für alle Branchen. Vitako
Aktuell. Zeitschrift der Bundes-Arbeitsgemeinschaft der Kommunalen IT-Dienstleister e.V., 2-
2016:26-27, 2016.
Georg Rehm. Artificial Intelligence for the Film Industry. FilmTech Meetup Berlin, July 25, 2017.
Georg Rehm. KI für die Kundenkommunikation: Der Markt der Zukunft. Rethink! Connected
Customer 360°. Hamburg, June 22/23, 2017.
Propellor | Forum #1 – Interessante Resultate:
• Any Film, Anywhere – user model, watchlist, loc, reco
• Bubble Buster – user model, reco (safe & surprising)
• Super AI Brain – user model, reco
• Data of the Movie – user model, reco, biofeedback
• AI-based Storytelling – user model, audience
clustering, Big Data-based storytelling
#DKT17 – 12. Oktober 2017 34
http://www.propellorfilmtech.com/forum
Persönliche
Kuratierungstechnologien
#DKT17 – 12. Oktober 2017 35
#DKT17 – 12. Oktober 2017 36
#DKT17 – 12. Oktober 2017 37
Viralität und Filterblasen
• Inhalte werden ohne Kontrollinstanz publiziert, über
soziale Medien entdeckt und, falls relevant, zügig geteilt
• Das Teilen erfolgt oft ohne Lektüre oder kritische Prüfung
• Ziel: Viralität ➟ Reichweite ➟ Klicks ➟ Werbeerlöse
• Nicht alle „journalistisch“ aussehenden Inhalte fühlen
sich tatsächlich der Wahrheit verpflichtet
• Bürde der kritischen Prüfung liegt heute bei den Lesern
• „Fake News“: Etikett für diverse Klassen von Inhalten
#DKT17 – 12. Oktober 2017 38
Sieben
Klassen von
Falsch-
nachrichten
Satire oder
Parodie:
führt
Menschen
aber
dennoch
manchmal
auf das
Glatteis
Falscher
Zusam-
menhang:
wenn Titel
und Fotos
den Inhalt
nicht
stützen
Irreführen-
der Inhalt:
Nutzung
von
Informatio-
nen, um
etwas/jmd.
In ein
schlechtes
Licht zu
rücken
Falscher
Kontext:
wenn echte
Inhalte im
falschen
Kontext
präsentiert
werden
Betrüge-
rische
Inhalte:
wenn echte
Quellen
imitiert
werden
Manipulier-
ter Inhalt:
Manipula-
tion von
Inhalten
zum Zweck
der
Täuschung
Fabrizierter
Inhalt:
basiert zu
100% nicht
auf
Tatsachen,
geschrie-
ben um zu
täuschen
Charakteristika
Clickbait X X ? ? ?
Desinformation X X X X
Politisch gefärbt ? X ? ? X
Schlechter
Journalismus X X X
IntentionenderUrheber
Parodie X ? ?
Provokation X X X
Profit ? X X X
Täuschung X X X X X X
Politik beeinflussen X X X X
Meinungen
beeinflussen X X X X X
Unterschiedliche Klassen von Falschnachrichten und ihre jeweiligen Charakteristika und Intentionen
(nach Wardle, 2017; Walbrühl, 2017; Rubin et al., 2015; Holan, 2016; Weedon et al., 2017)
39
#DKT17 – 12. Oktober 2017
Annotierte Titel/Artikel-Paare 49.972 100%
Klasse: unrelated 36.545 73%
Schritt 1: Klassifikation related vs.
unrelated = Clickbait-Erkennung
Klasse: discuss 8.909 18%
Schritt 2: Nur wenn sich der Titel auf den
Text bezieht, kann discuss, agree,
disagree klassifiziert werden.
Klasse: agree 3.678 7%
Klasse: disagree 840 2%
40
DFKI-
System
Relatedness 93,29
Drei Klassen 88,36
Gewichtet 89,59
Mit einer Präzision von 89,59
haben wir bei der ersten Fake
News Challenge (FNC1) Platz 9
von 50 Teams erreicht.
Peter Bourgonje, Julian Moreno Schneider, and Georg Rehm. “From Clickbait to Fake News Detection: An Approach based on
Detecting the Stance of Headlines to Articles”. In Octavian Popescu and Carlo Strapparava, editors, Proceedings of Natural Language
Processing meets Journalism – EMNLP 2017 Workshop (NLPMJ 2017), Copenhagen, Denmark, September 2017. 7. September.
Beispiel: Clickbait-Erkennung
• Vollautomatische Prüfung arbiträrer Behauptungen bis auf Weiteres technisch unmöglich
• Annäherung: Ermittlung der Haltung eines Textes zu einem Thema („Stance Detection“)
Übergreifende Infrastruktur
• Inhalte werden im/über das World Wide Web konsumiert
• Daher Einbettung der Infrastruktur in den Browser
• Ziel: Leser im Umgang mit Inhalten unterstützen, Fakten
prüfen, Täuschungsversuche erkennen etc.
• Im Browser z.B. Ampelmetaphorik: Rot, Gelb, Grün
• Somit Filterblasen- und Netzwerkeffekte ausbalancieren
• Kombination aus automatischen Werkzeugen und
menschlicher Schwarmintelligenz
#DKT17 – 12. Oktober 2017 41
Georg Rehm. “An Infrastructure for Empowering Internet Users to handle Fake News and other Online Media Phenomena”. In Georg
Rehm and Thierry Declerck, editors, Language Technologies for the Challenges of the Digital Age: Proceedings of the GSCL
Conference 2017, Berlin, September 2017. Gesellschaft für Sprachtechnologie und Computerlinguistik e.V. 13.-15. September 2017.
Website
mit Inhalten
Tool1
Browser unterstützt Infrastruktur nativ und aggregiert
unterschiedlichen Bewertungen, Kommentare und Meinungen
über einen Inhalt in klare Botschaften oder Warnungen
Web
Annotations
DB1
Web
Annotations
DB2
Tool3
Tool2
UGA: User-generierte Annotationen (Freitext)
UGM: User-generierte Metadaten (standardisiert)
MGM: Maschinen-generated Metadaten (standardisiert)
MGM
MGM
MGM
Dezentrale Filter verarbeiten Inhalte automatisch und schicken
Ergebnisse zum Browser (wichtig: Mehrsprachigkeit)
UGA
Web
Annotations
DB4UGM
Beispiel: Nutzer bewertet Qualität
eines Inhalts im Hinblick auf
ein standardisiertes Schema
Annotationen anderer Nutzer
andere
Nutzer
Web
Annotations
DB3
UGA
UGM
UGM
UGA
Dezentralle Repositorien
speichern alle Annotationen
Detektion von
Hassrede Klassifikation des
politischen Spektrums
Faktenchecker
Website
mit Inhalten
Tool1
Browser unterstützt Infrastruktur nativ und aggregiert
unterschiedlichen Bewertungen, Kommentare und Meinungen
über einen Inhalt in klare Botschaften oder Warnungen
Web
Annotations
DB1
Web
Annotations
DB2
Tool3
Tool2
UGA: User-generierte Annotationen (Freitext)
UGM: User-generierte Metadaten (standardisiert)
MGM: Maschinen-generated Metadaten (standardisiert)
MGM
MGM
MGM
Dezentrale Filter verarbeiten Inhalte automatisch und schicken
Ergebnisse zum Browser (wichtig: Mehrsprachigkeit)
UGA
Web
Annotations
DB4UGM
Beispiel: Nutzer bewertet Qualität
eines Inhalts im Hinblick auf
ein standardisiertes Schema
Annotationen anderer Nutzer
andere
Nutzer
Web
Annotations
DB3
UGA
UGM
UGM
UGA
Dezentralle Repositorien
speichern alle Annotationen
Detektion von
Hassrede Klassifikation des
politischen Spektrums
Faktenchecker
Ziel: Nutzern Technologien an die Hand geben, mit
denen sie digitale Inhalte und Medien besser
rezipieren, einschätzen, analysieren, verifizieren und
verarbeiten können und die automatisch Hinweise auf
problematische Inhalte liefern.
DFKI organisierte GSCL 2017
• „Sprachtechnologien für die Herausfor-
derungen des Digitalen Zeitalters“
• 100+ Teilnehmer
• 13./14. September 2017 – HU Berlin
• Vier Beiträge von DKT!
• Proceedings erscheinen in Kürze bei
Springer (LNAI) – unterstützt von DKT!
#DKT17 – 12. Oktober 2017 44
Schlussfolgerungen
• Wissensarbeiter können bei der Kuratierung von Inhalten
und Wissen durch Technologien unterstützt werden
• In diversen Branchen sehr großes Interesse an dem
Ansatz und den bislang entwickelten Prototypen
• Enormes Potential für Folgeaktivitäten
• Erweitertes Set von Services, automatischere Ansätze,
zusätzliche Wissensquellen, flexiblere Orchestrierung
• EU-Projekt zu Kuratierungstechnologien für juristische
Inhalte startet im Dezember 2017
• Kuratierungstechnologien für das mehrsprachige Europa
#DKT17 – 12. Oktober 2017 45
Challenges
• Increasingly important role of Social Media as news provider, shift in fact-checking and quality control responsibilities from journalist (content creator) to reader (content consumer).
• Definitive solution to Fake News challenges requires input from several disciplines (communication science, law, etc.), trying to contribute from a Language Technology perspective.
• Following FNC-1 (http://www.fakenewschallenge.org), we deploy a stance detection system.
• With “truth labelling” being a highly difficult, ambiguous and perspective-dependent task, stance detection is a valid first step, because combined with a (post-facto) truth label, or
trustworthiness information, dubious claims can be brought to the attention of fact checkers, or directly to news consumers.
• Insights from sentiment analysis may give hints on stance, but the latter has broader scope (the target of a proposition may not be included in the phrase itself).
From Clickbait to Fake News Detection:
An Approach based on Detecting the Stance of Headlines to Articles
Peter Bourgonje, Julián Moreno Schneider, Georg Rehm
DFKI GmbH, Language Technology Lab, Alt-Moabit 91c, 10559 Berlin, Germany
Corresponding author: georg.rehm@dfki.de
… to Fake News Detection
• Integration in Digital Curation platform
(http://digitale-kuratierung.de), from smart and
semantically enriched content to contextualised
content.
• Large potential, but also large potential for abuse:
decentralised repositories, open, event-based
knowledge graph for automated content verification.
Classifying stance of headlines to articles based on the Emergent data set (Ferreira & Vlachos, 2016) and on the first Fake News Challenge (FNC-1) setup.
Integrated in a digital curation platform, with a proposal for a framework for fake news detection.
Unique headlines 1.648
Unique articles 1.668
Annotated pairs 49.972 100%
Class Total Ratio
Unrelated 36.545 73%
Discuss 8.909 18%
Agree 3.678 7%
Disagree 840 2%
Majority
vote
3-class
classifier
Combined
classifiers
Relatedness
score
93.27 93.26 93.29
Three-class
score
61.51 75.34 88.36
Weighted
score
69.45 79.82 89.59
Headline: "ADVISORY-Islamist rebel leader killed in U.S.
strike - Somali government"
Article: "MOGADISHU, Sept 5 (Reuters) - The alert and
story on Sept. 5 headlined ""Islamist rebel leader killed in
U.S. strike-Somali government"" is withdrawn and no
substitute story will be issued. The story was sourced to a
website purporting to be the Somali prime minister's
Facebook page. A Somali government spokesman said the
page was not official and said the government had not yet
commented on whether Ahmed Godane, the head of the
Somali Islamist militant group al Shabaab, had been killed
in a U.S. strike on Monday. STORY_NUMBER:
L5N0R62Q3 STORY_DATE: 05/09/2014 STORY_TIME:
1324 GMT (Writing by Edmund Blair; Editing by Sonya
Hepinstall)"
Stance: disagree
Evaluation
Dataset Results
Headline: "Return of the Mac: Seth Rogen in talks to star
as Apple co-founder Steve Wozniak in upcoming Steve
Jobs biopic"
Article: "Afghanistan veteran Sam Arnold uploaded this
spine-chilling video of a US Marine getting a direct
headshot from a Taliban sniper—only to be saved by his
kevlar helmet. It's incredible to watch, especially the face of
relief and disbelief of the impact victim. That was a really
close call. According to Arnold, ""the Marines were
conducting a joint helicopter raid in the Now Zad district,
Helmand Province in 2013. The shot occurs right at the :45
mark in the video."""
Stance: unrelated
From Clickbait …
• Classifying pairs into related vs. unrelated, based on ngram-matching of header and article
• Classifying related pairs into disagree, agree or discuss, first using a 3-class (Maximum
Entropy) classifier. If the distance between best and second-best scoring class is under some
threshold:
• Using specialized binary (maxent) classifiers (disagree vs. agree, disagree vs. discuss and
discuss vs. agree)
where
#DKT17 – Kuratieren im
Zeitalter der KI, Berlin
Digitale Kuratierungstechnologien is supported
by the German Federal Ministry of Education
and Research (BMBF), Unternehmen Region,
Wachstumskern-Potenzial (No. 03WKP45).
1. Semantic Storytelling
• Approach that bundles a flexible set of semantic services for the production of digital content,
to recommend interesting storylines to human experts from large collections of documents
• Processing a coherent and self-contained collection of documents to identify and to suggest
one or more potential story paths that can then be used to structure an actual story around
them or, generally, a new piece of content
Event Detection and Semantic Storytelling:
Generating a Travelogue from a large Collection of Personal Letters
Georg Rehm*, Julián Moreno Schneider*, Peter Bourgonje*, Ankit Srivastava*, Jan Nehring*, Armin Berger§, Luca König§, Sören Räuchle§, Jens Gerth§
* DFKI GmbH, Language Technology Lab, Alt-Moabit 91c, 10559 Berlin, Germany § 3pc GmbH Neue Kommunikation, Prinzessinnenstraße 1, 10969 Berlin, Germany
Corresponding author: georg.rehm@dfki.de
3. Smart Authoring Environment
4. Movement Action Events (MAEs)
Based on NER, Temporal Expression, Geolocations, Movement Verbs and Events
person, origin, destination, departure time, arrival time, mode of transport
2. Digital Curation Technologies
5. MAE Extraction Results
RDF DB
RDF DB
Semantic Storytelling
Backend
Authoring Environment
iOS App Android AppHTML5ePub …
• Input: Self-contained document collection
• Example: Mendelsohn letters, 2796 documents,
written in German, English, French
• Assists the editor in putting together stories based on
the semantic analyses
• Enables the construction of new stories, for example,
by (1) focussing on the specific requirements of
different text types such as biography or travelogue
or (2) through highlighting and recommending to the
human expert specific relationships between entities
• Automatic transformation of RDF database contents
into play-out formats for different channels and media
Semantic Storytelling: Analysis and Annotation Steps
• Language identification (for cross-lingual processing)
• Temporal expression analysis (TimeX)
• Geographic location analysis (GeoX)
• Participants and actors analysis (Person X)
• Coreference analysis
• Event detection (cross-lingual, including German and
French, through machine translation)
• Mode of transportation analysis
• Identification of Movement Action Events out of the set of
identified events (filtering)
Experimental
Storytelling Dashboard
Obama, Brasilia, Rio de
Janeiro, [], [], [].
Mr Obama arrived in Rio de
Janeiro after a day of talks in the
capital, Brasilia, with Ms Rousseff
and business leaders.
Mendelsohn Corpus Results
[], [], Cleveland, May 06 12:00
2017, [], []
My discussion here will, I hope, be
finished before I leave for Cleveland
tomorrow night.
th=0 th=.25 th=.5 th=.75
A1 591 328 98 0
A3 563 253 54 0
A5 116 60 11 0
Obama Corpus Results
th=0 th=.25 th=.5 th=.75
A1 13030 9700 5314 0
A3 7841 4511 2784 0
A5 2545 1768 1328 0
• Generic curation services:
Named entity recognition,
entity linking, summarisation,
machine translation, analysis
of temporal expressions,
geolocation tagging etc.
• Enable knowledge workers
(digital curators, journalists,
exhibition planners etc.) to be
more efficient and produce
output of higher quality
Abstract: Identifying a specific class of events, movement action events (MAEs), in ca.
2,800 personal letters exchanged by the German architect Erich Mendelsohn and his wife,
Luise. A backend system uses these and other semantic analysis results as input for an
authoring environment that curators can use to produce new pieces of content (travelogue).
2.2 Generic Event Extraction
• Implemented a joint extraction of events and entities within a
document context trained on the English section of the ACE
2005 data, to extract generic events in the Mendelsohn
letters (English as well as German translated into English)
• Most relevant event type for MAE is the Transport event; In
the Mendelsohn dataset, 45% labelled events were
Transport in English and 40% were Transport in German
2.1 Data Sets
• Mendelsohn letters: 2,796 letters (2,481 in
German, 312 in English and 3 in French),
written between 1910 and 1953, by Erich
(1,410) and Luise Mendelsohn (1,328)
• Obama corpus: 487 news articles (English)
on the multiple trips of Barack Obama
We apply five approaches:
A1) using all entities in an event
A2) like A1 but including metadata of the
letters as entities (author, location, date)
A3) using all entities but avoiding similar
locations for LO and LD and similar dates for
tD and tA
A4) like A3 but including the metadata
A5) like A3 but only including the MAEs from
sentences that include a trigger element
Instantiation of MAE Six-Tuples
1) Delete general event not containing a trigger element
2) Include metadata information if there is no participant,
location, or temporal expression
3) Generate MAE candidate six-tuples by filling the
six-tuple with available entities getting a score:
!"#$% = !"' + !")* + !")+ + !",-
+ !",.
+ !"/
4) Delete MAEs under a certain threshold.
MAE Visualisation
Temple Washington affair promising. Have been
there on Tuesday night from 9.30 to 1, returned to
Baltimore at 2A.M. […] Due in St. Louis around
The hectic days of St. Louis, my beloved, are
drawing to their close. I am leaving tonight for
Davenport midnight.
For consecutive MAEs, we assume that
LD is LO of the next trip
#DKT17 – Kuratieren im
Zeitalter der KI, Berlin
Digitale Kuratierungstechnologien is supported
by the German Federal Ministry of Education
and Research (BMBF), Unternehmen Region,
Wachstumskern-Potenzial (No. 03WKP45).
1. Content Curation Dashboard
• Superdesk (http://www.superdesk.org) extension
for keyword alerts, content exploration, related
content discovery.
• Visualisation and annotation of news documents,
using Linked Data knowledge graphs.
• From documents to smaller content components
(i.e., individual event representations) as atomic
building blocks for story line generation.
Semantic Storytelling, Cross-lingual Event Detection and other
Semantic Services for a Newsroom Content Curation Dashboard
Julián Moreno Schneider*, Ankit Srivastava*, Peter Bourgonje*, David Wabnitz§, Georg Rehm*
* DFKI GmbH, Language Technology Lab, Alt-Moabit 91c, 10559 Berlin, Germany § Kreuzwerker GmbH, Ritterstraße 12-14, 10969 Berlin, Germany
Corresponding author: georg.rehm@dfki.de
3. Evaluation
• Qualitative evaluation of story line clusters.
• English: Global news. The Obama corpus contains 487 files with news articles on
the multiple trips of Barack Obama.
• German: Regional news. Corpus provided by a project partner, containing news
1,037 articles, general (regional-level) domain with no specific topic.
• Events based on NER, Temporal Expression, Geolocations, Movement Verbs an
Events, represented by:
Person, Origin, Destination, Departure Time, Arrival Time, Transportation
2. Semantic Storytelling
Language Technology backend based
on typical components like NER,
Entity Linking, Temporal Analysis,
Summarisation, to arrive at Event
Extraction and finally visualisation.
Semantic Storytelling based on clustering of events, collected through cross-lingual event
extraction. Resulting in a tool aiding journalists in the creation of storylines for several
different domains, granularities and use cases.
2.3 Visualisation
By cluster, temporal or geographical dimension:
Instantiation of MAE Six-Tuples
1) Delete general event not containing a trigger element
2) Include metadata information if there is no participant,
location, or temporal expression
3) Generate MAE candidate six-tuples by filling the six-
tuple with available entities getting a score:
!"#$% = !"' + !")* + !")+ + !",-
+ !",.
+ !"/
4) Delete MAEs under a threshold.
2.1 Event Extraction
• English Event Extraction module trained
on ACE2005 (news domain) data
• German text translated using Moses,
Machine Translation, analysed using
English Event Extraction module, events
projected back to German input text.
2.2 Event Clustering
Conclusion
• Feasible approach for automatic
generation of semantic content for
stories in large collections with topic
heterogeneity (Obama corpus).
• Limited performance for cross-lingual
approach (German regional news
corpus) due to pipeline approach
(limited performance of MT
component not specifically trained for
the domain)
Initial(Search(and Filtering
Annotated Entities Searching Related Content
• Clustering found events
on entities appearing in
them and sorting by
frequency.
• Found clusters form the
logical structure of new
content.
#DKT17 – Kuratieren im
Zeitalter der KI, Berlin
Digitale Kuratierungstechnologien is supported
by the German Federal Ministry of Education
and Research (BMBF), Unternehmen Region,
Wachstumskern-Potenzial (No. 03WKP45).
1. Task Description, Data & Tools
#DKT17 – Kuratieren im
Zeitalter der KI, Berlin
DFKI-DKT at SemEval-2017 Task 8:
Ankit Srivastava,"Georg/Rehm,"Julian/Moreno/Schneider
DFKI"GmbH,"Language"Technology"Lab,"Alt9Moabit"91c,"10559"Berlin,"Germany
{ankit.srivastava,"georg.rehm,"julian.moreno_schneider}@dfki.de
Rumour Detection & Classification using Cascading Heuristics
3. Experimental Analysis
!RumourEval Shared"Task":Analysing"and"determining"veracity"of"social"media"content
!Given"a"set"of"Twitter"conversation"on"a"specific"topic:"identify"rumours"&"classify"stance
!Subtask/A:"Classify"whether"a"reply"tweet"Supports,"Denies,"Queries"(ask"for"additional"
evidence)"or"merely"Comments"on"a"given"rumourous tweet"[Fig."1]
!Subtask/B/(closed):"Identify"whether"a"tweet"is"the"Truth"or"Falsehood"(rumour)"[Fig."2]
!Training"/"Development"/"Test"Data:"Available"from"the"Pheme Project
!3"Classifiers"from"MALLET"(MAchine Learning"for"LanguagE Toolkit)"– Naïve"Bayes,"
Maximum"Entropy,"Winnow"Classification
!Heuristics"(Hand9coded"rules)"as"a"post9classification"process"in"a"cascading"fashion
2. DFKI-DKT System
0,635
0,393
0,621
0,387
0,63
0,4
0,705
0,422
SUBTASK A SUBTASK B
MaxEnt NvBayes Winnow EnsembleSystem"Workflow
For both subtasks, we employ a hybrid system consisting
of a classifier (either single or ensemble of three [voting9
based combination]) followed by heuristics (decision rules)
inferred from a statistical distribution of features in the
training data [Fig. 3]
Fig."3
Heuristics
Features
Subtask A
Subtask B
Fig."1:"Example"of"
Subtask"A:"Stance"
Classification
!Ensemble Classifier demonstrates best
classification performance on both subtasks
[purple bar in Fig. 4]
!Number of correct categories (blue bar)
classified accurately in both subtasks [Fig. 5]
!Textual Features and Twitter Metadata help in
heuristics (decision rules)
Fig."2:"Example"of"
Subtask"B:"Rumour"
Identification
Fig."4:"Classifier"
Accuracies"for"
Subtasks"A"&"B
Fig."5:"Example"of"
Subtask"B:"Rumour"
Identification
Digitale Kuratierungstechnologien is supported
by the German Federal Ministry of Education
and Research (BMBF), Unternehmen Region,
Wachstumskern-Potenzial (No. 03WKP45).
An Infrastructure for Empowering Internet Users to Handle
Fake News and other Online Media Phenomena
Georg Rehm
DFKI GmbH, Forschungsbereich Sprachtechnologie – Alt-Moabit 91c, 10559 Berlin
georg.rehm@dfki.de
#DKT17 – Kuratieren im
Zeitalter der KI, Berlin
Digitale Kuratierungstechnologien wird unterstützt
vom Bundesministerium für Bildung und Forschung
(BMBF), Unternehmen Region, Wachstumskern-
Potenzial (Nr. 03WKP45).
• Inhalte werden im/über das World Wide Web konsumiert
• Daher Einbettung der Infrastruktur in den Browser
• Im Browser z.B. Ampelmetaphorik: Rot, Gelb, Grün
• Somit Filterblasen- und Netzwerkeffekte ausbalancieren
• Hybrider Ansatz: automatische Werkzeuge und menschliche
Schwarmintelligenz
• Ambition: Infrastruktur für Millionen von Nutzern, beliebige Klassen von
Inhalten und Hunderte Sprachen
• Ziel: Nutzern Technologien an die Hand geben, mit denen sie digitale
Inhalte und Medien besser rezipieren, einschätzen, analysieren,
verifizieren und verarbeiten können und die automatisch Hinweise auf
problematische Inhalte liefern.
• Digitale Medien und digitale
Kommunikation: Immense
politische, gesellschaftliche
und ökonomische Relevanz
• Diese wird in Zukunft immer
weiter zunehmen
• Interessante Phänomene
bezüglich der Produktion,
Distribution, Rezeption und
Auswirkung von Medien
Satire oder
Parodie:
führt
Menschen
aber dennoch
manchmal auf
das Glatteis
Falscher
Zusam-
menhang:
wenn Titel und
Fotos den
Inhalt nicht
stützen
Irreführender
Inhalt:
Nutzung von
Informatio-
nen, um
etwas/jmd. In
ein schlechtes
Licht zu
rücken
Falscher
Kontext: wenn
echte Inhalte
im falschen
Kontext
präsentiert
werden
Betrügerische
Inhalte:
wenn echte
Quellen
imitiert werden
Manipulierter
Inhalt:
Manipulation
von Inhalten
zum Zweck
der
Täuschung
Fabrizierter
Inhalt:
basiert zu
100% nicht
auf Tatsachen,
geschrieben
um zu
täuschen
Charakteristika
Clickbait X X ? ? ?
Desinformation X X X X
Politisch gefärbt ? X ? ? X
Schlechter Journalismus X X X
IntentionenderUrheber
Parodie X ? ?
Provokation X X X
Profit ? X X X
Täuschung X X X X X X
Politik beeinflussen X X X X
Meinungen beeinflussen X X X X X
Beispiel 1: Clickbait-Erkennung
Vollautomatische Prüfung arbiträrer Behauptungen
ist bis auf Weiteres technisch unmöglich
Annäherung: Ermittlung der Haltung eines Textes zu
einem Thema („Stance Detection“)
Annotierte Titel/Artikel-Paare 49.972 100%
Klasse: unrelated 36.545 73%
Schritt 1: Klassifikation related vs.
unrelated = Clickbait-Erkennung
Klasse: discuss 8.909 18%
Schritt 2: Nur wenn sich der Titel auf den
Text bezieht, kann discuss, agree,
disagree klassifiziert werden.
Klasse: agree 3.678 7%
Klasse: disagree 840 2%
DFKI-
System
Relatedness 93,29
Drei Klassen 88,36
Gewichtet 89,59
Mit einer Präzision von 89,59
haben wir bei der ersten Fake
News Challenge (FNC1) Platz 9
von 50 Teams erreicht.
Tweets EN
(15.979)
Tweets DE
(469)
Wikipedia A1
(11.304)
Wikipedia A2
(11.304)
Precision 85,67 78,19 80,90 80,42
Recall 77,45 78,16 80,97 80,46
Schlussfolgerung: Viel versprechende Ergebnisse; bislang nur
einzelne Experimente mit wenigen Typen problematischer Inhalte!
• Beleidigende Beiträge verhindern konstruktive Online-Debatten
• Klassifikationsexperimente mit verschiedenen Datensets
• Englische Tweets: neutral, rassistisch, sexistisch
• Deutsche Tweets: hasserfüllt vs. nicht hasserfüllt
• Wikipedia-Talk-Seiten mit Nutzerkommentaren
• A1: Angriff auf eine Person vs. kein Angriff auf eine Person
• A2: Aggression vs. keine Aggression
Beispiel 2: Beleidigende Sprache
Schlussfolgerungen
und nächste Schritte
• Nutzern den Ausbruch aus der Filterblase und
einen kritischeren Umgang mit digitalen Medien
ermöglichen
• Lösung: Maschinelle Verfahren in Verbindung mit
Schwarmintelligenz
• Herbst: Einbringung der Idee in „Next Generation
Internet“-Initiative der EC – deren Ziel: ein
„menschlicheres Internet“
• Herbst: Bau eines Prototyps; Diskussion dieser
Themen im World Wide Web Consortium (W3C)
Online Medien: Status Quo
Idee: Bau einer Infrastruktur, die automatische Analysen und Annotationen von
Nutzern ermöglicht, um die Herausforderungen des digitalen Zeitalters zu lösen.
• Das World Wide Web ermöglicht es – ohne Kontroll-instanz – Inhalte
zu publizieren und zu verbreiten
• Content wird heute über soziale Medien entdeckt
• Relevanter Content wird zügig geteilt – oft ohne Lektüre, kritisches
Hinterfragen oder Prüfen der Inhalte
• Ziel: Viralität Reichweite Klicks Werbeerlöse
• Filterblase: Nur vom Nutzermodell als „relevant“ eingestufte Inhalte
werden auf der Timeline präsentiert
• Kontroverse Inhalte und Meinungen bleiben außen vor
• Filterblase wirkt wie eine verstärkende Echokammer
Übergreifende Infrastruktur
Website
mit Inhalten
Tool1
Browser unterstützt Infrastruktur nativ und aggregiert
unterschiedlichen Bewertungen, Kommentare und Meinungen
über einen Inhalt in klare Botschaften oder Warnungen
Web
Annotations
DB1
Web
Annotations
DB2
Tool3
Tool2
UGA: User-generierte Annotationen (Freitext)
UGM: User-generierte Metadaten (standardisiert)
MGM: Maschinen-generated Metadaten (standardisiert)
MGM
MGM
MGM
Dezentrale Filter verarbeiten Inhalte automatisch und schicken
Ergebnisse zum Browser (wichtig: Mehrsprachigkeit)
UGA
Web
Annotations
DB4UGM
Beispiel: Nutzer bewertet Qualität
eines Inhalts im Hinblick auf
ein standardisiertes Schema
Annotationen anderer Nutzer
andere
Nutzer
Web
Annotations
DB3
UGA
UGM
UGM
UGA
Dezentralle Repositorien
speichern alle Annotationen
Detektion von
Hassrede Klassifikation des
politischen Spektrums
Faktenchecker
Unterschiedliche Typen falscher Nachrichten und ihre jeweiligen Charakteristika und Intentionen
(nach Wardle, 2017; Walbrühl, 2017; Rubin et al., 2015; Holan, 2016; Weedon et al., 2017)
Vielen Dank!
http://www.digitale-kuratierung.de
Das DFKI-DKT-Team:
#DKT17 – 12. Oktober 2017 47

Mais conteúdo relacionado

Semelhante a Kuratieren im Zeitalter der KI

ch.ch 2020
ch.ch 2020 ch.ch 2020
ch.ch 2020
ch.ch
 

Semelhante a Kuratieren im Zeitalter der KI (20)

Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
Transkribus. Eine Forschungsplattform für die automatisierte Digitalisierung,...
 
Mehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische TechnologienMehrsprachigkeit und semantische Technologien
Mehrsprachigkeit und semantische Technologien
 
Horizon Report 2015 Library Edition
Horizon Report 2015 Library EditionHorizon Report 2015 Library Edition
Horizon Report 2015 Library Edition
 
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
Hacken Sie schon - oder archivieren Sie noch? Der Kultur-Hackathon "Coding da...
 
CeBIT 2011: CONTENTUS goes Business im Internet der Dienste
CeBIT 2011: CONTENTUS goes Business im Internet der DiensteCeBIT 2011: CONTENTUS goes Business im Internet der Dienste
CeBIT 2011: CONTENTUS goes Business im Internet der Dienste
 
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
MODS2FRBRoo : Ein Tool zur Anbindung von bibliographischen Daten an eine Onto...
 
Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?Linked Data - Das Ende des Dokuments?
Linked Data - Das Ende des Dokuments?
 
Von Big Data zu Künstlicher Intelligenz - Maschinelles Lernen auf dem Vormarsch
Von Big Data zu Künstlicher Intelligenz - Maschinelles Lernen auf dem VormarschVon Big Data zu Künstlicher Intelligenz - Maschinelles Lernen auf dem Vormarsch
Von Big Data zu Künstlicher Intelligenz - Maschinelles Lernen auf dem Vormarsch
 
Von Big Data zu Künstlicher Intelligenz - Maschinelles Lernen auf dem Vormarsch
Von Big Data zu Künstlicher Intelligenz - Maschinelles Lernen auf dem VormarschVon Big Data zu Künstlicher Intelligenz - Maschinelles Lernen auf dem Vormarsch
Von Big Data zu Künstlicher Intelligenz - Maschinelles Lernen auf dem Vormarsch
 
Software Defined Everything 2016 - Post Event Report
Software Defined Everything 2016 - Post Event ReportSoftware Defined Everything 2016 - Post Event Report
Software Defined Everything 2016 - Post Event Report
 
Selbermachen!
Selbermachen! Selbermachen!
Selbermachen!
 
09 pisa finale
09 pisa finale09 pisa finale
09 pisa finale
 
Development in der Cloud-Ära
Development in der Cloud-ÄraDevelopment in der Cloud-Ära
Development in der Cloud-Ära
 
Development in der Cloud-Ära
Development in der Cloud-ÄraDevelopment in der Cloud-Ära
Development in der Cloud-Ära
 
TFF 2017 - Semantic annotation of touristic destinations
TFF 2017 - Semantic annotation of touristic destinationsTFF 2017 - Semantic annotation of touristic destinations
TFF 2017 - Semantic annotation of touristic destinations
 
Creating a customer centric travel-Commerce experience
Creating a customer centric travel-Commerce experienceCreating a customer centric travel-Commerce experience
Creating a customer centric travel-Commerce experience
 
Der Horizon Report Library Edition - ein kollaborativ entwickelter Trendreport
Der Horizon Report Library Edition - ein kollaborativ entwickelter TrendreportDer Horizon Report Library Edition - ein kollaborativ entwickelter Trendreport
Der Horizon Report Library Edition - ein kollaborativ entwickelter Trendreport
 
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
Digitalisate kuratieren mit KI - von unstrukturierten Daten zu strukturierten...
 
ENP_ONB_infday_GMuehlberger
ENP_ONB_infday_GMuehlbergerENP_ONB_infday_GMuehlberger
ENP_ONB_infday_GMuehlberger
 
ch.ch 2020
ch.ch 2020 ch.ch 2020
ch.ch 2020
 

Mais de Georg Rehm

Mais de Georg Rehm (20)

QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
QURATOR: A Flexible AI Platform for the Adaptive Analysis and Creative Genera...
 
Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...Observations on Annotations – From Computational Linguistics and the World Wi...
Observations on Annotations – From Computational Linguistics and the World Wi...
 
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
The Preparation, Impact and Future of the META-NET White Paper Series “Europe...
 
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...AI and Conference Interpretation – From Smart Assistants for the Human Interp...
AI and Conference Interpretation – From Smart Assistants for the Human Interp...
 
Künstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und ÜbersetzenKünstliche Intelligenz beim Dolmetschen und Übersetzen
Künstliche Intelligenz beim Dolmetschen und Übersetzen
 
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
Herausforderungen und Lösungen für die europäische Sprachtechnologie- Forschu...
 
European Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and FutureEuropean Language Technologies – Past, Present and Future
European Language Technologies – Past, Present and Future
 
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and InterpretationTowards a Human Language Project for Multilingual Europe: AI and Interpretation
Towards a Human Language Project for Multilingual Europe: AI and Interpretation
 
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) ÜberblickKI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
KI, Sprachtechnologie und Digital Humanities: Ein (unvollständiger) Überblick
 
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...Language Technologies for Multilingual Europe - Towards a Human Language Proj...
Language Technologies for Multilingual Europe - Towards a Human Language Proj...
 
AI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual EuropeAI for Translation Technologies and Multilingual Europe
AI for Translation Technologies and Multilingual Europe
 
Artificial Intelligence for the Film Industry
Artificial Intelligence for the Film IndustryArtificial Intelligence for the Film Industry
Artificial Intelligence for the Film Industry
 
KI für die Kundenkommunikation
KI für die KundenkommunikationKI für die Kundenkommunikation
KI für die Kundenkommunikation
 
EPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3CEPUB, quo vadis? Publishing im W3C
EPUB, quo vadis? Publishing im W3C
 
Human Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual EuropeHuman Language Technologies in a Multilingual Europe
Human Language Technologies in a Multilingual Europe
 
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
Language Technologies for Big Data – A Strategic Agenda for the Multilingual ...
 
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
Multilingual Europe in late 2016 – A Strategic Research and Innovation Agenda...
 
Multilingualism for Digital Europe
Multilingualism for Digital EuropeMultilingualism for Digital Europe
Multilingualism for Digital Europe
 
Curation Technologies for Multilingual Europe
Curation Technologies for Multilingual EuropeCuration Technologies for Multilingual Europe
Curation Technologies for Multilingual Europe
 
The Strategic Agenda for the Multilingual Digital Single Market V0.9
The Strategic Agenda for the Multilingual Digital Single Market V0.9The Strategic Agenda for the Multilingual Digital Single Market V0.9
The Strategic Agenda for the Multilingual Digital Single Market V0.9
 

Kuratieren im Zeitalter der KI

  • 1. Georg Rehm georg.rehm@dfki.de DFKI GmbH, Berlin #DKT17: Kuratieren im Zeitalter der KI 12. Oktober 2017 – Humboldt Universität zu Berlin Kuratieren im Zeitalter der KI
  • 2. Semantic Media Web 2014 Einführung des Konzepts „Digitale Kuratierung“ Semantic Media Web 2015 – #DKT15 Vorstellung des neuen BMBF-Projekts „Digitale Kuratierungstechnologien“ Semantic Media Web 2016 – #DKT16 Bergfest – erste Ergebnisse Semantic Media Web 2017 – #DKT17 Der Projektabschluss steht kurz bevor.
  • 3. Überblick • Was ist digitale Kuratierung? • BMBF-Projekt Digitale Kuratierungstechnologien • Zusätzliche Branchen und Anwendungsszenarien • Persönliche Kuratierungstechnologien • Schlussfolgerungen #DKT17 – 12. Oktober 2017 3
  • 4. Digitale Medien im Jahr 2017 #DKT17 – 12. Oktober 2017 4
  • 5. #DKT17 – 12. Oktober 2017 5
  • 6. #DKT17 – 12. Oktober 2017 6
  • 7. #DKT17 – 12. Oktober 2017 7
  • 8. #DKT17 – 12. Oktober 2017 8
  • 9. Digitale Medien im Jahr 2017 • Das WWW begann 1989 als eine Art digitales Archiv • 2017: Hochgradig dynamische Informations-, Kommunikations- und E-Commerce-Maschine • Milliarden von Nutzern, diverse Typen von Endgeräten • Content ist ein wichtiger Treibstoff der Maschine • Immer breitere Diversifizierung (Branchen und Nischen) • Politische, gesellschaftliche und ökonomische Relevanz • In zahlreichen Branchen und Bereichen herrscht sehr großer Druck, regelmäßig Content zu publizieren • Große Herausforderung: Effizienter Umgang mit Content #DKT17 – 12. Oktober 2017 9
  • 10. KI im Jahr 2017 #DKT17 – 12. Oktober 2017 10
  • 11. #DKT17 – 12. Oktober 2017 11
  • 12. #DKT17 – 12. Oktober 2017 12
  • 13. #DKT17 – 12. Oktober 2017 13
  • 14. #DKT17 – 12. Oktober 2017 14 Daten Intelligenz Aktuelle Durchbrüche mit maschinellen Lernverfahren (Deep Learning) Ebenfalls noch immer im Einsatz: symbolische, regelbasierte Methoden Künstliche Intelligenz • Selbstfahrende Autos, Robotik, Bilderkennung, maschinelle Übersetzung • Ermöglicht durch tiefe Lernverfahren (neuronale Netze) • Immenses Potenzial für Disruptionen in allen Branchen • Tiefes Sprachverstehen – nächste große Herausforderung der KI-Forschung!
  • 15. Was ist digitale Kuratierung? #DKT17 – 12. Oktober 2017 15
  • 16. Was ist digitale Kuratierung? #DKT17 – 12. Oktober 2017 Information Information Information Information Information Information Information Information Information Information 16
  • 17. Was ist digitale Kuratierung? #DKT17 – 12. Oktober 2017 Information Information Information Information Information Information Information Information Information ? ? ? ?Information 17
  • 18. Was ist digitale Kuratierung? #DKT17 – 12. Oktober 2017 Information Information Information Information Information Information Information Information Information ? Information OutputInput SoftwareProzesse ? ? ? 18
  • 19. Branchen Input Prozesse Software Output Tweet Analysieren Textverarbeitung Zeitungsartikel Zeitungsartikel Auswählen Präsentationen Multimedia-Website Agenturmeldung Fokussieren Tabellenkalkulation TV-Beitrag Facebook-Meldung Überarbeiten Email Ausstellungskatalog Suchergebnis Einlesen Browser Mobile Applikation Email Schreiben Groupware Mashup (z.B. Karte) SMS Gestalten Branchenapplikationen Textbeitrag Konzept Recherchieren CMS Konzept Textdateien Bewerten ECMS Zeitstrahl Video Evaluieren CRM Fachartikel Karte Ordnen Unternehmens-Software Studie Stockfotos Sortieren Grafik-/Layout-Software Präsentation In-house Datenbank Strukturieren Telefonie Faktensammlung Kalendereintrag Zusammenfassen etc. Exponatsartikel Spreadsheets Kürzen Analysen Archiv Übersetzen etc. etc. Informieren Kombinieren Abstrahieren Einordnen Visualisieren Generieren Annotieren Referenzieren etc. Beobachtungen • Content: textzentriert, mehrsprachig, multimedial • Kuratierung: zeit- und wissensintensiv, interdisziplinär, evtl. durchgeführt in verteilten Teams • Branche: domänen-/branchenspezifische Anforderungen • Einschränkung: Traditionelle CMS-Systeme bieten kaum Unterstützung für Kuratierungsprozesse! • Sprachtechnologie kann helfen – Kombinierung von Komponenten zu branchenspezifischen Workflows
  • 21. DKT Kick-off-Veranstaltung – 25. September 2015 Georg Rehm und Felix Sasaki. “Digital Curation Technologies.” In Proceedings of the 19th Annual Conference of the European Association for Machine Translation (EAMT 2016), Riga, Lettland, Mai 2016 Georg Rehm und Felix Sasaki. “Digitale Kuratierungstechnologien – Verfahren für die effiziente Verarbeitung, Erstellung und Verteilung qualitativ hochwertiger Medieninhalte.” In Proceedings der Frühjahrstagung der Gesellschaft für Sprachtechnologie und Computerlinguistik (GSCL 2015), S. 138-139, Duisburg, 2015 • Unterstützung und Optimierung digitaler Kuratierung durch Sprach- und Wissenstechnologien. • Entwicklung innovativer Prototypen bei den KMU-Partnern. • Weiterentwicklung der DFKI-Technologien und Transfer mittels Plattform für digitale Kuratierungstechnologien. Sprach- und Wissenstechnologien Kuratierungstechnologien Branchentechnologien Plattformtechnologie Branchenlösungen
  • 22. Plattform für digitale Kuratierungstechnologien Broker REST API Kuratierungsservice 1 Kuratierungsservice 2 Client nutzt das API Externer Service 1 Externer Service 2 Client nutzt das API Client nutzt das API Client nutzt das API Kuratierungs-Workflow Output @prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . @prefix xsd: <http://www.w3.org/2001/XMLSchema#> . @prefix itsrdf: <http://www.w3.org/2005/11/its/rdf#> . @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> . @prefix geo: <http://www.w3.org/2003/01/geo/wgs84_pos/> . @prefix nif: <http://persistence.uni-leipzig.org/nlp2rdf/ontologies/nif-core#> . <http://link.omitted/documents/document1#char=0,26> a nif:RFC5147String , nif:String , nif:Context ; nif:beginIndex "0"^^xsd:nonNegativeInteger ; nif:endIndex "26"^^xsd:nonNegativeInteger ; nif:isString "Welcome to Berlin in 2016. "^^xsd:string ; dfkinif:averageLatitude "52.516666666666666"^^xsd:double ; dfkinif:averageLongitude "13.383333333333333"^^xsd:double ; dfkinif:stdDevLatitude "0.0"^^xsd:double ; dfkinif:stdDevLongitude "0.0"^^xsd:double ; nif:meanDateRange "20160101010000_20170101010000"^^xsd:string . <http://link.omitted/documents/document1#char=21,25> a nif:RFC5147String , nif:String ; itsrdf:taIdentRef <http://link.omitted/ontologies/nif#date=20160101000000_20170101000000> ; nif:anchorOf "2016"^^xsd:string ; nif:beginIndex "21"^^xsd:nonNegativeInteger ; nif:endIndex "25"^^xsd:nonNegativeInteger ; nif:entity <http://link.omitted/ontologies/nif#date>. <http://link.omitted/documents/#char=11,17> a nif:RFC5147String , nif:String ; nif:anchorOf "Berlin"^^xsd:string ; nif:beginIndex "11"^^xsd:nonNegativeInteger ; nif:endIndex "17"^^xsd:nonNegativeInteger ; itsrdf:taClassRef <http://dbpedia.org/ontology/Location> ; nif:referenceContext <http://link.omitted/documents/#char=0,26> ; geo:lat "52.516666666666666"^^xsd:double ; geo:long "13.383333333333333"^^xsd:double ; itsrdf:taIdentRef <http://dbpedia.org/resource/Berlin> . NLP Interchange Format (NIF) “Welcome to Berlin in 2016.” • RDF/OWL-basiertes Format für NLP- Anwendungen • Ermöglicht Interoperabilität • Durch pures RDF „natürliche“ Integration von Linked-Data-Daten • Entwickelt von der Universität Leipzig • Plattform unterstützt neben NIF auch Web Annotations Prototypisch implementierte Plattform und Services • Durch (Semi-)Automatisierung der Kuratierungsprozesse zeitliche und finanzielle Aufwände reduzieren • Flexible, robuste, skalierbare Services • Gemeinsamer Bau von Prototypen (proofs-of-concept) • Modulare Inhalte in neuen Produktionen aggregieren • Interoperabilität durch generische APIs • Human in the loop
  • 23. Prototypische Services #DKT17 – 12. Oktober 2017 23 NER, Linking, Geolokalisierung Technologien für Digitale Medien – Georg Rehm ... In the Viking colony of Iceland, an extraordinary vernacular literature blossomed in the 12th through 14th centuries ... ... The ships were scuttled there in the 11th century, to block a navigation channel and thus protect Roskilde, then Copenhagen from seaborne assault ... ... Viking Age inscriptions have also been discovered on the Manx runestones on the Isle of Man. … Plain Text NIF-Anreicherung Visualisierung http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=ner http://http://dev.digitale-kuratierung.de/admini/pages/geolocalization.php • Modus 1: Modell-basiert (für Domänen, für die annotierte Trainingsdaten verfügbar sind) • Modus 2: Wörterbuch-basiert (für Domänen, für die lediglich Namenslisten verfügbar sind) • Basiert auf OpenNLP (mit NIF-Integration) • Entity-Linking durch SPARQL-Querys auf DBPedia. • Für Lokationen werden GPS-Koordinaten bezogen. • Es werden Durchschnittsangaben berechnet auf Dokumentebene (über alle Lokationen), um diese auf einer Karte visualisieren zu können. Geolokalisierung als visuelles Zusammenfassen! 53 Technologien für Digitale Medien – Georg Rehm NER und Linking • http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=dict • Falls lediglich Listen von Namen oder Termen und deren URIs in einer Ontologie zur Verfügung stehen. • http://api.digitale-kuratierung.de/api/e-nlp/trainModel?analysis=ner • Falls annotierte Trainingsdaten zur Verfügung stehen auf neuem Input nutzbar (auch gemeinsam) statistisches NER-Modell Datenbank-Dump der Mendelsohn-Briefe Hohe Qualität Benötigt annotierte Daten Mittlere Qualität Benötigt weniger annotierte Daten • Falls – z.B. bei Spezialdomänen – weder das eine (A) noch das andere (B) vorliegt, können potenzielle Entitäten in Kollektionen berechnet werden. • Diese Liste kann vom Wissensarbeiter überprüft und anschließend als Wörterbuch (A) eingesetzt werden. Mittlere Qualität Menschliche Intervention notwendig Benötigt keine annotierten Daten A B C • Linking per Extraktion der DBpedia-URI • NE-Typspezifische SPARQL-Querys für Personen (Geburtsdatum), Lokationen (Koordinaten), Organisationen (Typ) • Wörterbuch kann URIs enthalten 54 Technologien für Digitale Medien – Georg Rehm Zeitausdrücke ... The ships were scuttled there in the 11th century, to block a navigation channel and thus protect Roskilde, then Copenhagen from seaborne assault ... ... Viking Age inscriptions have also been discovered on the Manx runestones on the Isle of Man. ... ... In the Viking colony of Iceland, an extraordinary vernacular literature blossomed in the 12th through 14th centuries … 900 1600 http://api.digitale-kuratierung.de/api/e-nlp/namedEntityRecognition?analysis=temp http://dev.digitale-kuratierung.de/admini/pages/timelining.php Plain-Text NIF-Anreicherung Visualisierung • Sortiert Dokumente auf einer chronologischen Skala. • Regelbasiertes System, um unsere Zielsprachen bestmöglich bedienen zu können (EN, DE). • Analyse von Zeitausdrücken in einem Dokument. • Berechnet Durchschnittswerte und Intervalle. • Plan: Mechanismus für nutzerbasierte Regeln. • Verwandte Arbeiten: SUTime, HeidelTime, Tango, Tarsgi. 55 Maschinelle Übersetzung Technologien für Digitale Medien – Georg Rehm Workflow Language & Translation Models trained on DGT, News, Europarl, TED Herr Modi befindet sich auf einer fünftägigen Reise nach Japan, um die wirtschaftlichen Beziehungen mit der drittgrößten Wirtschaftsnation der Welt zu festigen. Mr Modi is located on a five-day trip to Japan to strengthen the economic ties with the third largest economy in the world. Named Entity Recognition Entity Linking Temporal Expressions Metadata Processing Post-Edit Retraining Beispiel • Robuste, adaptierbare MT-Modelle (nutzen Moses, Cdec, Giza++, SRILM etc.) • Parallele und monolinguale Korpora: Europarl, DGT-TM, TED, UN, Newscrawl u.a. • Kombination mit anderen DKT-Services (Summariser, NER, Temporal Analyser); ITS 2.0, NIF • Diverse Linked-Data-Datenquellen unterstützen MT (z.B. Dbpedia, BabelNet, WordNet) Ankit Srivastava, Georg Rehm, and Felix Sasaki. Improving Machine Translation through Linked Data. The Prague Bulletin of Mathematical Linguistics, 108(1):355-366, June 2017. Proceedings of the 20th Annual Conference of the European Association for Machine Translation (EAMT 2017). Workflow Language & Translation Models trained on DGT, News, Europarl, TED 56 Textzusammenfassen Technologien für Digitale Medien – Georg Rehm Die Aktie der RWE AG fiel am Donnerstag um 0,21% auf 19,16 EUR und schwankte am Handelstag zwischen 19,08 und 19,32 EUR. Das Handelsvolumen der Aktie lag bei 1,79 Millionen Aktien und so unter dem 52-Wochen und 150-Tagesvolumen von 3,40 Millionen bzw. 3,96 Millionen Aktien. Im letzten Monat und den letzten 3 Monaten verlor die RWE- Aktie 3,79% bzw. 18,95% und in den letzten 3 Tagen 3,55%. Das PE und PB-Verhältnis der Unternehmensaktie liegt aktuell bei 11,44 bzw. 1,29, während die historischen PE und PB- Werte jeweils bei 11,77 bzw. 2,13 liegen. Im letzten Monat und den letzten 3 Monaten verlor die RWE-Aktie 3,79% bzw. 18,95% und in den letzten 3 Tagen 3,55%. • Kuratierungsservice rankt Sätze – basierend auf div. Features – hinsichtlich ihrer Wichtigkeit. • Modul ist in der Entwicklung. • Beispiel: Artikel über den fallenden Aktienkurs von RWE (Daten stammen von Condat). • Ausblick: Integration der Analyseergebnisse anderer DKT-Services in den Algorithmus. 57 Semantic Storytelling • Eingabe: Kohärente, in sich geschlossene Textkollektion • Ausgabe: Semantisch angereicherte Kollektion • Idee: Aufgabenspezifisch multiple Rezeptionspfade generieren, vorschlagen, präsentieren • Lösung: Identifizierung, Ranking und Empfehlung sinnvoller, überraschender Hypertextpfade • Es gibt noch zahlreiche Herausforderungen. Technologien für Digitale Medien – Georg Rehm 58 Julian Moreno Schneider, Peter Bourgonje, Jan Nehring, Georg Rehm, Felix Sasaki, and Ankit Srivastava. Towards Semantic Story Telling with Digital Curation Technologies. In Larry Birnbaum, Octavian Popescuk und Carlo Strapparava, Hrsg., Proceedings of Natural Language Processing meets Journalism - IJCAI-16 Workshop (NLPMJ 2016), New York, Juli 2016. Peter Bourgonje, Julian Moreno Schneider, Georg Rehm und Felix Sasaki. Processing Document Collections to Automatically Extract Linked Data: Semantic Storytelling Technologies for Smart Curation Workflows. In Aldo Gangemi und Claire Gardent, Hrsg., Proceedings of the 2nd International Workshop on Natural Language Generation and the Semantic Web (WebNLG 2016), S. 13-16, Edinburgh, UK, Sept. 2016. Association for Comp.Linguistics. Peter Bourgonje, Julian Moreno-Schneider, Jan Nehring, Georg Rehm, Felix Sasaki und Ankit Srivastava. “Towards a Platform for Curation Technologies: Enriching Text Collections with a Semantic-Web Layer.” In Harald Sack, Giuseppe Rizzo, Nadine Steinmetz, Dunja Mladenić, Sören Auer und Christoph Lange, Hrsg., The Semantic Web: ESWC 2016 Satellite Events, Juni 2016.
  • 24. Storytelling Wunschfunktionalität bei den Partnern: Semantic Storytelling • Eingabe: Kohärente, in sich geschlossene Textkollektion • Ausgabe: Semantisch angereicherte Kollektion • Idee: Aufgabenspezifisch multiple Rezeptionspfade generieren, vorschlagen, präsentieren • Lösung: Identifizierung, Ranking und Empfehlung sinnvoller, überraschender Hypertextpfade • Derzeit noch experimentelle Avantgarde-Technologie • Es gibt noch zahlreiche Herausforderungen ... #DKT17 – 12. Oktober 2017 24
  • 25. RDF DB RDF DB Semantic Storytelling Backend Authoring Environment iOS App Android AppHTML5ePub … • Input: Self-contained documentcollection • Example:Mendelsohn letters,2796 documents, written in German, English,French • Assists the editor in putting together stories based on the semantic analyses • Enables the construction of new stories, for example, by (1) focussing on the specific requirements of differenttext types such as biography or travelogue or (2) through highlighting and recommending to the human expert specific relationships between entities • Automatic transformation of RDF database contents into play-outformats for different channels and media Semantic Storytelling: Analysis and Annotation Steps • Language identification (for cross-lingual processing) • Temporal expression analysis (TimeX) • Geographic location analysis (GeoX) • Participants and actors analysis (Person X) • Coreference analysis • Event detection (cross-lingual,including German and French, through machine translation) • Mode of transportation analysis • Identification of MovementAction Events out of the set of identified events (filtering) Experimental Storytelling Dashboard Beispiel: Die Mendelsohn-Briefe Experiment: Überführung einer Sammlung von Briefen in einen Reisebericht Georg Rehm, Julian Moreno Schneider, Peter Bourgonje, Ankit Srivastava, Jan Nehring, Armin Berger, Luca König, Sören Räuchle, and Jens Gerth. Event Detection and Semantic Storytelling: Generating a Travelogue from a large Collection of Personal Letters. In Tommaso Caselli, Ben Miller, Marieke van Erp, Piek Vossen, Martha Palmer, Eduard Hovy, and Teruko Mitamura, editors, Proceedings of the Events and Stories in the News Workshop, Vancouver, Canada, August 2017. Association for Computational Linguistics. Co-located with ACL 2017.
  • 26. #DKT17 – 12. Oktober 2017 26 Beispiel: Die Mendelsohn-Briefe
  • 27. #DKT17 – 12. Oktober 2017 27 Georg Rehm, Julian Moreno Schneider, Peter Bourgonje, Ankit Srivastava, Jan Nehring, Armin Berger, Luca König, Sören Räuchle, and Jens Gerth. Event Detection and Semantic Storytelling: Generating a Travelogue from a large Collection of Personal Letters. In Tommaso Caselli, Ben Miller, Marieke van Erp, Piek Vossen, Martha Palmer, Eduard Hovy, and Teruko Mitamura, editors, Proceedings of the Events and Stories in the News Workshop, Vancouver, Canada, August 2017. Association for Computational Linguistics. Co-located with ACL 2017. Branche: Öffentliche Archive
  • 28. #DKT17 – 12. Oktober 2017 28 Julian Moreno-Schneider, Ankit Srivastava, Peter Bourgonje, David Wabnitz, and Georg Rehm. Semantic Storytelling, Cross- lingual Event Detection and other Semantic Services for a Newsroom Content Curation Dashboard. In Octavian Popescu and Carlo Strapparava, editors, Proceedings of Natural Language Processing meets Journalism - EMNLP 2017 Workshop (NLPMJ 2017), Copenhagen, Denmark, September 2017. 7. September. Branche: Journalismus
  • 29. Branche: Museen, Showrooms, Ausstellungen #DKT17 – 12. Oktober 2017 29 Georg Rehm, Jing He, Julian Moreno Schneider, Jan Nehring, and Joachim Quantz. Designing User Interfaces for Curation Technologies. In Sakae Yamamoto, editor, Human Interface and the Management of Information: Information, Knowledge and Interaction Design, 19th International Conference, HCI International 2017, number 10273 in Lecture Notes in Computer Science (LNCS), pages 388-406, Vancouver, Canada, July 2017. Springer.
  • 30. #DKT17 – 12. Oktober 2017 30 Georg Rehm, Julián Moreno Schneider, Peter Bourgonje, Ankit Srivastava, Rolf Fricke, Jan Thomsen, Jing He, Joachim Quantz, Armin Berger, Luca König, Sören Räuchle, Jens Gerth, and David Wabnitz. Different Types of Automated and Semi-Automated Semantic Storytelling: Curation Technologies for Different Sectors. In Georg Rehm and Thierry Declerck, editors, Language Technologies for the Challenges of the Digital Age: Proceedings of the GSCL Conference 2017, Lecture Notes in Artificial Intelligence (LNAI), Heidelberg etc., September 2017. Gesellschaft für Sprachtechnologie und Computerlinguistik e.V., Springer. 13.-15. September 2017. Branche: TV, Web-TV, Medien
  • 31. Kuratierungstechnologien für zusätzliche Branchen und Anwendungsfälle #DKT17 – 12. Oktober 2017 31
  • 32. • BMBF-Projekt Digitale Kuratierungstechnologien: – Museen, Showrooms, Ausstellungen – TV, Web-TV, Medien – Öffentliche Archive – Journalismus #DKT17 – 12. Oktober 2017 32
  • 33. • BMBF-Projekt Digitale Kuratierungstechnologien: – Museen, Showrooms, Ausstellungen – TV, Web-TV, Medien – Öffentliche Archive – Journalismus • Außerdem Kuratierungstechnologien konzipiert für: – Bibliothekswissenschaft und Digital Libraries – Customer-Relationship-Management (u.a. Chatbots) – Juristische und regulatorische Inhalte – Medizinische Inhalte – Digital Humanities – Film- und Kinobranche #DKT17 – 12. Oktober 2017 33 Clemens Neudecker und Georg Rehm. „Digitale Kuratierungstechnologien für Bibliotheken“. Zeitschrift für Bibliothekskultur 027.7, Open Access. Nov. 2016. Georg Rehm. Der Mensch bleibt im Mittelpunkt – Smarte Technologien für alle Branchen. Vitako Aktuell. Zeitschrift der Bundes-Arbeitsgemeinschaft der Kommunalen IT-Dienstleister e.V., 2- 2016:26-27, 2016. Georg Rehm. Artificial Intelligence for the Film Industry. FilmTech Meetup Berlin, July 25, 2017. Georg Rehm. KI für die Kundenkommunikation: Der Markt der Zukunft. Rethink! Connected Customer 360°. Hamburg, June 22/23, 2017.
  • 34. Propellor | Forum #1 – Interessante Resultate: • Any Film, Anywhere – user model, watchlist, loc, reco • Bubble Buster – user model, reco (safe & surprising) • Super AI Brain – user model, reco • Data of the Movie – user model, reco, biofeedback • AI-based Storytelling – user model, audience clustering, Big Data-based storytelling #DKT17 – 12. Oktober 2017 34 http://www.propellorfilmtech.com/forum
  • 36. #DKT17 – 12. Oktober 2017 36
  • 37. #DKT17 – 12. Oktober 2017 37
  • 38. Viralität und Filterblasen • Inhalte werden ohne Kontrollinstanz publiziert, über soziale Medien entdeckt und, falls relevant, zügig geteilt • Das Teilen erfolgt oft ohne Lektüre oder kritische Prüfung • Ziel: Viralität ➟ Reichweite ➟ Klicks ➟ Werbeerlöse • Nicht alle „journalistisch“ aussehenden Inhalte fühlen sich tatsächlich der Wahrheit verpflichtet • Bürde der kritischen Prüfung liegt heute bei den Lesern • „Fake News“: Etikett für diverse Klassen von Inhalten #DKT17 – 12. Oktober 2017 38
  • 39. Sieben Klassen von Falsch- nachrichten Satire oder Parodie: führt Menschen aber dennoch manchmal auf das Glatteis Falscher Zusam- menhang: wenn Titel und Fotos den Inhalt nicht stützen Irreführen- der Inhalt: Nutzung von Informatio- nen, um etwas/jmd. In ein schlechtes Licht zu rücken Falscher Kontext: wenn echte Inhalte im falschen Kontext präsentiert werden Betrüge- rische Inhalte: wenn echte Quellen imitiert werden Manipulier- ter Inhalt: Manipula- tion von Inhalten zum Zweck der Täuschung Fabrizierter Inhalt: basiert zu 100% nicht auf Tatsachen, geschrie- ben um zu täuschen Charakteristika Clickbait X X ? ? ? Desinformation X X X X Politisch gefärbt ? X ? ? X Schlechter Journalismus X X X IntentionenderUrheber Parodie X ? ? Provokation X X X Profit ? X X X Täuschung X X X X X X Politik beeinflussen X X X X Meinungen beeinflussen X X X X X Unterschiedliche Klassen von Falschnachrichten und ihre jeweiligen Charakteristika und Intentionen (nach Wardle, 2017; Walbrühl, 2017; Rubin et al., 2015; Holan, 2016; Weedon et al., 2017) 39
  • 40. #DKT17 – 12. Oktober 2017 Annotierte Titel/Artikel-Paare 49.972 100% Klasse: unrelated 36.545 73% Schritt 1: Klassifikation related vs. unrelated = Clickbait-Erkennung Klasse: discuss 8.909 18% Schritt 2: Nur wenn sich der Titel auf den Text bezieht, kann discuss, agree, disagree klassifiziert werden. Klasse: agree 3.678 7% Klasse: disagree 840 2% 40 DFKI- System Relatedness 93,29 Drei Klassen 88,36 Gewichtet 89,59 Mit einer Präzision von 89,59 haben wir bei der ersten Fake News Challenge (FNC1) Platz 9 von 50 Teams erreicht. Peter Bourgonje, Julian Moreno Schneider, and Georg Rehm. “From Clickbait to Fake News Detection: An Approach based on Detecting the Stance of Headlines to Articles”. In Octavian Popescu and Carlo Strapparava, editors, Proceedings of Natural Language Processing meets Journalism – EMNLP 2017 Workshop (NLPMJ 2017), Copenhagen, Denmark, September 2017. 7. September. Beispiel: Clickbait-Erkennung • Vollautomatische Prüfung arbiträrer Behauptungen bis auf Weiteres technisch unmöglich • Annäherung: Ermittlung der Haltung eines Textes zu einem Thema („Stance Detection“)
  • 41. Übergreifende Infrastruktur • Inhalte werden im/über das World Wide Web konsumiert • Daher Einbettung der Infrastruktur in den Browser • Ziel: Leser im Umgang mit Inhalten unterstützen, Fakten prüfen, Täuschungsversuche erkennen etc. • Im Browser z.B. Ampelmetaphorik: Rot, Gelb, Grün • Somit Filterblasen- und Netzwerkeffekte ausbalancieren • Kombination aus automatischen Werkzeugen und menschlicher Schwarmintelligenz #DKT17 – 12. Oktober 2017 41 Georg Rehm. “An Infrastructure for Empowering Internet Users to handle Fake News and other Online Media Phenomena”. In Georg Rehm and Thierry Declerck, editors, Language Technologies for the Challenges of the Digital Age: Proceedings of the GSCL Conference 2017, Berlin, September 2017. Gesellschaft für Sprachtechnologie und Computerlinguistik e.V. 13.-15. September 2017.
  • 42. Website mit Inhalten Tool1 Browser unterstützt Infrastruktur nativ und aggregiert unterschiedlichen Bewertungen, Kommentare und Meinungen über einen Inhalt in klare Botschaften oder Warnungen Web Annotations DB1 Web Annotations DB2 Tool3 Tool2 UGA: User-generierte Annotationen (Freitext) UGM: User-generierte Metadaten (standardisiert) MGM: Maschinen-generated Metadaten (standardisiert) MGM MGM MGM Dezentrale Filter verarbeiten Inhalte automatisch und schicken Ergebnisse zum Browser (wichtig: Mehrsprachigkeit) UGA Web Annotations DB4UGM Beispiel: Nutzer bewertet Qualität eines Inhalts im Hinblick auf ein standardisiertes Schema Annotationen anderer Nutzer andere Nutzer Web Annotations DB3 UGA UGM UGM UGA Dezentralle Repositorien speichern alle Annotationen Detektion von Hassrede Klassifikation des politischen Spektrums Faktenchecker
  • 43. Website mit Inhalten Tool1 Browser unterstützt Infrastruktur nativ und aggregiert unterschiedlichen Bewertungen, Kommentare und Meinungen über einen Inhalt in klare Botschaften oder Warnungen Web Annotations DB1 Web Annotations DB2 Tool3 Tool2 UGA: User-generierte Annotationen (Freitext) UGM: User-generierte Metadaten (standardisiert) MGM: Maschinen-generated Metadaten (standardisiert) MGM MGM MGM Dezentrale Filter verarbeiten Inhalte automatisch und schicken Ergebnisse zum Browser (wichtig: Mehrsprachigkeit) UGA Web Annotations DB4UGM Beispiel: Nutzer bewertet Qualität eines Inhalts im Hinblick auf ein standardisiertes Schema Annotationen anderer Nutzer andere Nutzer Web Annotations DB3 UGA UGM UGM UGA Dezentralle Repositorien speichern alle Annotationen Detektion von Hassrede Klassifikation des politischen Spektrums Faktenchecker Ziel: Nutzern Technologien an die Hand geben, mit denen sie digitale Inhalte und Medien besser rezipieren, einschätzen, analysieren, verifizieren und verarbeiten können und die automatisch Hinweise auf problematische Inhalte liefern.
  • 44. DFKI organisierte GSCL 2017 • „Sprachtechnologien für die Herausfor- derungen des Digitalen Zeitalters“ • 100+ Teilnehmer • 13./14. September 2017 – HU Berlin • Vier Beiträge von DKT! • Proceedings erscheinen in Kürze bei Springer (LNAI) – unterstützt von DKT! #DKT17 – 12. Oktober 2017 44
  • 45. Schlussfolgerungen • Wissensarbeiter können bei der Kuratierung von Inhalten und Wissen durch Technologien unterstützt werden • In diversen Branchen sehr großes Interesse an dem Ansatz und den bislang entwickelten Prototypen • Enormes Potential für Folgeaktivitäten • Erweitertes Set von Services, automatischere Ansätze, zusätzliche Wissensquellen, flexiblere Orchestrierung • EU-Projekt zu Kuratierungstechnologien für juristische Inhalte startet im Dezember 2017 • Kuratierungstechnologien für das mehrsprachige Europa #DKT17 – 12. Oktober 2017 45
  • 46. Challenges • Increasingly important role of Social Media as news provider, shift in fact-checking and quality control responsibilities from journalist (content creator) to reader (content consumer). • Definitive solution to Fake News challenges requires input from several disciplines (communication science, law, etc.), trying to contribute from a Language Technology perspective. • Following FNC-1 (http://www.fakenewschallenge.org), we deploy a stance detection system. • With “truth labelling” being a highly difficult, ambiguous and perspective-dependent task, stance detection is a valid first step, because combined with a (post-facto) truth label, or trustworthiness information, dubious claims can be brought to the attention of fact checkers, or directly to news consumers. • Insights from sentiment analysis may give hints on stance, but the latter has broader scope (the target of a proposition may not be included in the phrase itself). From Clickbait to Fake News Detection: An Approach based on Detecting the Stance of Headlines to Articles Peter Bourgonje, Julián Moreno Schneider, Georg Rehm DFKI GmbH, Language Technology Lab, Alt-Moabit 91c, 10559 Berlin, Germany Corresponding author: georg.rehm@dfki.de … to Fake News Detection • Integration in Digital Curation platform (http://digitale-kuratierung.de), from smart and semantically enriched content to contextualised content. • Large potential, but also large potential for abuse: decentralised repositories, open, event-based knowledge graph for automated content verification. Classifying stance of headlines to articles based on the Emergent data set (Ferreira & Vlachos, 2016) and on the first Fake News Challenge (FNC-1) setup. Integrated in a digital curation platform, with a proposal for a framework for fake news detection. Unique headlines 1.648 Unique articles 1.668 Annotated pairs 49.972 100% Class Total Ratio Unrelated 36.545 73% Discuss 8.909 18% Agree 3.678 7% Disagree 840 2% Majority vote 3-class classifier Combined classifiers Relatedness score 93.27 93.26 93.29 Three-class score 61.51 75.34 88.36 Weighted score 69.45 79.82 89.59 Headline: "ADVISORY-Islamist rebel leader killed in U.S. strike - Somali government" Article: "MOGADISHU, Sept 5 (Reuters) - The alert and story on Sept. 5 headlined ""Islamist rebel leader killed in U.S. strike-Somali government"" is withdrawn and no substitute story will be issued. The story was sourced to a website purporting to be the Somali prime minister's Facebook page. A Somali government spokesman said the page was not official and said the government had not yet commented on whether Ahmed Godane, the head of the Somali Islamist militant group al Shabaab, had been killed in a U.S. strike on Monday. STORY_NUMBER: L5N0R62Q3 STORY_DATE: 05/09/2014 STORY_TIME: 1324 GMT (Writing by Edmund Blair; Editing by Sonya Hepinstall)" Stance: disagree Evaluation Dataset Results Headline: "Return of the Mac: Seth Rogen in talks to star as Apple co-founder Steve Wozniak in upcoming Steve Jobs biopic" Article: "Afghanistan veteran Sam Arnold uploaded this spine-chilling video of a US Marine getting a direct headshot from a Taliban sniper—only to be saved by his kevlar helmet. It's incredible to watch, especially the face of relief and disbelief of the impact victim. That was a really close call. According to Arnold, ""the Marines were conducting a joint helicopter raid in the Now Zad district, Helmand Province in 2013. The shot occurs right at the :45 mark in the video.""" Stance: unrelated From Clickbait … • Classifying pairs into related vs. unrelated, based on ngram-matching of header and article • Classifying related pairs into disagree, agree or discuss, first using a 3-class (Maximum Entropy) classifier. If the distance between best and second-best scoring class is under some threshold: • Using specialized binary (maxent) classifiers (disagree vs. agree, disagree vs. discuss and discuss vs. agree) where #DKT17 – Kuratieren im Zeitalter der KI, Berlin Digitale Kuratierungstechnologien is supported by the German Federal Ministry of Education and Research (BMBF), Unternehmen Region, Wachstumskern-Potenzial (No. 03WKP45). 1. Semantic Storytelling • Approach that bundles a flexible set of semantic services for the production of digital content, to recommend interesting storylines to human experts from large collections of documents • Processing a coherent and self-contained collection of documents to identify and to suggest one or more potential story paths that can then be used to structure an actual story around them or, generally, a new piece of content Event Detection and Semantic Storytelling: Generating a Travelogue from a large Collection of Personal Letters Georg Rehm*, Julián Moreno Schneider*, Peter Bourgonje*, Ankit Srivastava*, Jan Nehring*, Armin Berger§, Luca König§, Sören Räuchle§, Jens Gerth§ * DFKI GmbH, Language Technology Lab, Alt-Moabit 91c, 10559 Berlin, Germany § 3pc GmbH Neue Kommunikation, Prinzessinnenstraße 1, 10969 Berlin, Germany Corresponding author: georg.rehm@dfki.de 3. Smart Authoring Environment 4. Movement Action Events (MAEs) Based on NER, Temporal Expression, Geolocations, Movement Verbs and Events person, origin, destination, departure time, arrival time, mode of transport 2. Digital Curation Technologies 5. MAE Extraction Results RDF DB RDF DB Semantic Storytelling Backend Authoring Environment iOS App Android AppHTML5ePub … • Input: Self-contained document collection • Example: Mendelsohn letters, 2796 documents, written in German, English, French • Assists the editor in putting together stories based on the semantic analyses • Enables the construction of new stories, for example, by (1) focussing on the specific requirements of different text types such as biography or travelogue or (2) through highlighting and recommending to the human expert specific relationships between entities • Automatic transformation of RDF database contents into play-out formats for different channels and media Semantic Storytelling: Analysis and Annotation Steps • Language identification (for cross-lingual processing) • Temporal expression analysis (TimeX) • Geographic location analysis (GeoX) • Participants and actors analysis (Person X) • Coreference analysis • Event detection (cross-lingual, including German and French, through machine translation) • Mode of transportation analysis • Identification of Movement Action Events out of the set of identified events (filtering) Experimental Storytelling Dashboard Obama, Brasilia, Rio de Janeiro, [], [], []. Mr Obama arrived in Rio de Janeiro after a day of talks in the capital, Brasilia, with Ms Rousseff and business leaders. Mendelsohn Corpus Results [], [], Cleveland, May 06 12:00 2017, [], [] My discussion here will, I hope, be finished before I leave for Cleveland tomorrow night. th=0 th=.25 th=.5 th=.75 A1 591 328 98 0 A3 563 253 54 0 A5 116 60 11 0 Obama Corpus Results th=0 th=.25 th=.5 th=.75 A1 13030 9700 5314 0 A3 7841 4511 2784 0 A5 2545 1768 1328 0 • Generic curation services: Named entity recognition, entity linking, summarisation, machine translation, analysis of temporal expressions, geolocation tagging etc. • Enable knowledge workers (digital curators, journalists, exhibition planners etc.) to be more efficient and produce output of higher quality Abstract: Identifying a specific class of events, movement action events (MAEs), in ca. 2,800 personal letters exchanged by the German architect Erich Mendelsohn and his wife, Luise. A backend system uses these and other semantic analysis results as input for an authoring environment that curators can use to produce new pieces of content (travelogue). 2.2 Generic Event Extraction • Implemented a joint extraction of events and entities within a document context trained on the English section of the ACE 2005 data, to extract generic events in the Mendelsohn letters (English as well as German translated into English) • Most relevant event type for MAE is the Transport event; In the Mendelsohn dataset, 45% labelled events were Transport in English and 40% were Transport in German 2.1 Data Sets • Mendelsohn letters: 2,796 letters (2,481 in German, 312 in English and 3 in French), written between 1910 and 1953, by Erich (1,410) and Luise Mendelsohn (1,328) • Obama corpus: 487 news articles (English) on the multiple trips of Barack Obama We apply five approaches: A1) using all entities in an event A2) like A1 but including metadata of the letters as entities (author, location, date) A3) using all entities but avoiding similar locations for LO and LD and similar dates for tD and tA A4) like A3 but including the metadata A5) like A3 but only including the MAEs from sentences that include a trigger element Instantiation of MAE Six-Tuples 1) Delete general event not containing a trigger element 2) Include metadata information if there is no participant, location, or temporal expression 3) Generate MAE candidate six-tuples by filling the six-tuple with available entities getting a score: !"#$% = !"' + !")* + !")+ + !",- + !",. + !"/ 4) Delete MAEs under a certain threshold. MAE Visualisation Temple Washington affair promising. Have been there on Tuesday night from 9.30 to 1, returned to Baltimore at 2A.M. […] Due in St. Louis around The hectic days of St. Louis, my beloved, are drawing to their close. I am leaving tonight for Davenport midnight. For consecutive MAEs, we assume that LD is LO of the next trip #DKT17 – Kuratieren im Zeitalter der KI, Berlin Digitale Kuratierungstechnologien is supported by the German Federal Ministry of Education and Research (BMBF), Unternehmen Region, Wachstumskern-Potenzial (No. 03WKP45). 1. Content Curation Dashboard • Superdesk (http://www.superdesk.org) extension for keyword alerts, content exploration, related content discovery. • Visualisation and annotation of news documents, using Linked Data knowledge graphs. • From documents to smaller content components (i.e., individual event representations) as atomic building blocks for story line generation. Semantic Storytelling, Cross-lingual Event Detection and other Semantic Services for a Newsroom Content Curation Dashboard Julián Moreno Schneider*, Ankit Srivastava*, Peter Bourgonje*, David Wabnitz§, Georg Rehm* * DFKI GmbH, Language Technology Lab, Alt-Moabit 91c, 10559 Berlin, Germany § Kreuzwerker GmbH, Ritterstraße 12-14, 10969 Berlin, Germany Corresponding author: georg.rehm@dfki.de 3. Evaluation • Qualitative evaluation of story line clusters. • English: Global news. The Obama corpus contains 487 files with news articles on the multiple trips of Barack Obama. • German: Regional news. Corpus provided by a project partner, containing news 1,037 articles, general (regional-level) domain with no specific topic. • Events based on NER, Temporal Expression, Geolocations, Movement Verbs an Events, represented by: Person, Origin, Destination, Departure Time, Arrival Time, Transportation 2. Semantic Storytelling Language Technology backend based on typical components like NER, Entity Linking, Temporal Analysis, Summarisation, to arrive at Event Extraction and finally visualisation. Semantic Storytelling based on clustering of events, collected through cross-lingual event extraction. Resulting in a tool aiding journalists in the creation of storylines for several different domains, granularities and use cases. 2.3 Visualisation By cluster, temporal or geographical dimension: Instantiation of MAE Six-Tuples 1) Delete general event not containing a trigger element 2) Include metadata information if there is no participant, location, or temporal expression 3) Generate MAE candidate six-tuples by filling the six- tuple with available entities getting a score: !"#$% = !"' + !")* + !")+ + !",- + !",. + !"/ 4) Delete MAEs under a threshold. 2.1 Event Extraction • English Event Extraction module trained on ACE2005 (news domain) data • German text translated using Moses, Machine Translation, analysed using English Event Extraction module, events projected back to German input text. 2.2 Event Clustering Conclusion • Feasible approach for automatic generation of semantic content for stories in large collections with topic heterogeneity (Obama corpus). • Limited performance for cross-lingual approach (German regional news corpus) due to pipeline approach (limited performance of MT component not specifically trained for the domain) Initial(Search(and Filtering Annotated Entities Searching Related Content • Clustering found events on entities appearing in them and sorting by frequency. • Found clusters form the logical structure of new content. #DKT17 – Kuratieren im Zeitalter der KI, Berlin Digitale Kuratierungstechnologien is supported by the German Federal Ministry of Education and Research (BMBF), Unternehmen Region, Wachstumskern-Potenzial (No. 03WKP45). 1. Task Description, Data & Tools #DKT17 – Kuratieren im Zeitalter der KI, Berlin DFKI-DKT at SemEval-2017 Task 8: Ankit Srivastava,"Georg/Rehm,"Julian/Moreno/Schneider DFKI"GmbH,"Language"Technology"Lab,"Alt9Moabit"91c,"10559"Berlin,"Germany {ankit.srivastava,"georg.rehm,"julian.moreno_schneider}@dfki.de Rumour Detection & Classification using Cascading Heuristics 3. Experimental Analysis !RumourEval Shared"Task":Analysing"and"determining"veracity"of"social"media"content !Given"a"set"of"Twitter"conversation"on"a"specific"topic:"identify"rumours"&"classify"stance !Subtask/A:"Classify"whether"a"reply"tweet"Supports,"Denies,"Queries"(ask"for"additional" evidence)"or"merely"Comments"on"a"given"rumourous tweet"[Fig."1] !Subtask/B/(closed):"Identify"whether"a"tweet"is"the"Truth"or"Falsehood"(rumour)"[Fig."2] !Training"/"Development"/"Test"Data:"Available"from"the"Pheme Project !3"Classifiers"from"MALLET"(MAchine Learning"for"LanguagE Toolkit)"– Naïve"Bayes," Maximum"Entropy,"Winnow"Classification !Heuristics"(Hand9coded"rules)"as"a"post9classification"process"in"a"cascading"fashion 2. DFKI-DKT System 0,635 0,393 0,621 0,387 0,63 0,4 0,705 0,422 SUBTASK A SUBTASK B MaxEnt NvBayes Winnow EnsembleSystem"Workflow For both subtasks, we employ a hybrid system consisting of a classifier (either single or ensemble of three [voting9 based combination]) followed by heuristics (decision rules) inferred from a statistical distribution of features in the training data [Fig. 3] Fig."3 Heuristics Features Subtask A Subtask B Fig."1:"Example"of" Subtask"A:"Stance" Classification !Ensemble Classifier demonstrates best classification performance on both subtasks [purple bar in Fig. 4] !Number of correct categories (blue bar) classified accurately in both subtasks [Fig. 5] !Textual Features and Twitter Metadata help in heuristics (decision rules) Fig."2:"Example"of" Subtask"B:"Rumour" Identification Fig."4:"Classifier" Accuracies"for" Subtasks"A"&"B Fig."5:"Example"of" Subtask"B:"Rumour" Identification Digitale Kuratierungstechnologien is supported by the German Federal Ministry of Education and Research (BMBF), Unternehmen Region, Wachstumskern-Potenzial (No. 03WKP45). An Infrastructure for Empowering Internet Users to Handle Fake News and other Online Media Phenomena Georg Rehm DFKI GmbH, Forschungsbereich Sprachtechnologie – Alt-Moabit 91c, 10559 Berlin georg.rehm@dfki.de #DKT17 – Kuratieren im Zeitalter der KI, Berlin Digitale Kuratierungstechnologien wird unterstützt vom Bundesministerium für Bildung und Forschung (BMBF), Unternehmen Region, Wachstumskern- Potenzial (Nr. 03WKP45). • Inhalte werden im/über das World Wide Web konsumiert • Daher Einbettung der Infrastruktur in den Browser • Im Browser z.B. Ampelmetaphorik: Rot, Gelb, Grün • Somit Filterblasen- und Netzwerkeffekte ausbalancieren • Hybrider Ansatz: automatische Werkzeuge und menschliche Schwarmintelligenz • Ambition: Infrastruktur für Millionen von Nutzern, beliebige Klassen von Inhalten und Hunderte Sprachen • Ziel: Nutzern Technologien an die Hand geben, mit denen sie digitale Inhalte und Medien besser rezipieren, einschätzen, analysieren, verifizieren und verarbeiten können und die automatisch Hinweise auf problematische Inhalte liefern. • Digitale Medien und digitale Kommunikation: Immense politische, gesellschaftliche und ökonomische Relevanz • Diese wird in Zukunft immer weiter zunehmen • Interessante Phänomene bezüglich der Produktion, Distribution, Rezeption und Auswirkung von Medien Satire oder Parodie: führt Menschen aber dennoch manchmal auf das Glatteis Falscher Zusam- menhang: wenn Titel und Fotos den Inhalt nicht stützen Irreführender Inhalt: Nutzung von Informatio- nen, um etwas/jmd. In ein schlechtes Licht zu rücken Falscher Kontext: wenn echte Inhalte im falschen Kontext präsentiert werden Betrügerische Inhalte: wenn echte Quellen imitiert werden Manipulierter Inhalt: Manipulation von Inhalten zum Zweck der Täuschung Fabrizierter Inhalt: basiert zu 100% nicht auf Tatsachen, geschrieben um zu täuschen Charakteristika Clickbait X X ? ? ? Desinformation X X X X Politisch gefärbt ? X ? ? X Schlechter Journalismus X X X IntentionenderUrheber Parodie X ? ? Provokation X X X Profit ? X X X Täuschung X X X X X X Politik beeinflussen X X X X Meinungen beeinflussen X X X X X Beispiel 1: Clickbait-Erkennung Vollautomatische Prüfung arbiträrer Behauptungen ist bis auf Weiteres technisch unmöglich Annäherung: Ermittlung der Haltung eines Textes zu einem Thema („Stance Detection“) Annotierte Titel/Artikel-Paare 49.972 100% Klasse: unrelated 36.545 73% Schritt 1: Klassifikation related vs. unrelated = Clickbait-Erkennung Klasse: discuss 8.909 18% Schritt 2: Nur wenn sich der Titel auf den Text bezieht, kann discuss, agree, disagree klassifiziert werden. Klasse: agree 3.678 7% Klasse: disagree 840 2% DFKI- System Relatedness 93,29 Drei Klassen 88,36 Gewichtet 89,59 Mit einer Präzision von 89,59 haben wir bei der ersten Fake News Challenge (FNC1) Platz 9 von 50 Teams erreicht. Tweets EN (15.979) Tweets DE (469) Wikipedia A1 (11.304) Wikipedia A2 (11.304) Precision 85,67 78,19 80,90 80,42 Recall 77,45 78,16 80,97 80,46 Schlussfolgerung: Viel versprechende Ergebnisse; bislang nur einzelne Experimente mit wenigen Typen problematischer Inhalte! • Beleidigende Beiträge verhindern konstruktive Online-Debatten • Klassifikationsexperimente mit verschiedenen Datensets • Englische Tweets: neutral, rassistisch, sexistisch • Deutsche Tweets: hasserfüllt vs. nicht hasserfüllt • Wikipedia-Talk-Seiten mit Nutzerkommentaren • A1: Angriff auf eine Person vs. kein Angriff auf eine Person • A2: Aggression vs. keine Aggression Beispiel 2: Beleidigende Sprache Schlussfolgerungen und nächste Schritte • Nutzern den Ausbruch aus der Filterblase und einen kritischeren Umgang mit digitalen Medien ermöglichen • Lösung: Maschinelle Verfahren in Verbindung mit Schwarmintelligenz • Herbst: Einbringung der Idee in „Next Generation Internet“-Initiative der EC – deren Ziel: ein „menschlicheres Internet“ • Herbst: Bau eines Prototyps; Diskussion dieser Themen im World Wide Web Consortium (W3C) Online Medien: Status Quo Idee: Bau einer Infrastruktur, die automatische Analysen und Annotationen von Nutzern ermöglicht, um die Herausforderungen des digitalen Zeitalters zu lösen. • Das World Wide Web ermöglicht es – ohne Kontroll-instanz – Inhalte zu publizieren und zu verbreiten • Content wird heute über soziale Medien entdeckt • Relevanter Content wird zügig geteilt – oft ohne Lektüre, kritisches Hinterfragen oder Prüfen der Inhalte • Ziel: Viralität Reichweite Klicks Werbeerlöse • Filterblase: Nur vom Nutzermodell als „relevant“ eingestufte Inhalte werden auf der Timeline präsentiert • Kontroverse Inhalte und Meinungen bleiben außen vor • Filterblase wirkt wie eine verstärkende Echokammer Übergreifende Infrastruktur Website mit Inhalten Tool1 Browser unterstützt Infrastruktur nativ und aggregiert unterschiedlichen Bewertungen, Kommentare und Meinungen über einen Inhalt in klare Botschaften oder Warnungen Web Annotations DB1 Web Annotations DB2 Tool3 Tool2 UGA: User-generierte Annotationen (Freitext) UGM: User-generierte Metadaten (standardisiert) MGM: Maschinen-generated Metadaten (standardisiert) MGM MGM MGM Dezentrale Filter verarbeiten Inhalte automatisch und schicken Ergebnisse zum Browser (wichtig: Mehrsprachigkeit) UGA Web Annotations DB4UGM Beispiel: Nutzer bewertet Qualität eines Inhalts im Hinblick auf ein standardisiertes Schema Annotationen anderer Nutzer andere Nutzer Web Annotations DB3 UGA UGM UGM UGA Dezentralle Repositorien speichern alle Annotationen Detektion von Hassrede Klassifikation des politischen Spektrums Faktenchecker Unterschiedliche Typen falscher Nachrichten und ihre jeweiligen Charakteristika und Intentionen (nach Wardle, 2017; Walbrühl, 2017; Rubin et al., 2015; Holan, 2016; Weedon et al., 2017)