Vortrag beim #LSWT2013 zum Thema Themen- und Trenderkennung in Meldungen von NAchrichtenagenturen - Der Vortrag umreißt den aktuellen Stand des Forschungsprojekts Topic/S
http://aksw.org/Events/2013/LeipzigerSemanticWebTag/Kerntag.html
http://topic-s.de/
Möglichkeiten und Chancen von Social Media in der Personalarbeit
Themen- und Trenderkennung in Agenturmeldungen
1. Sächsische AufbauBank
Forschung und Entwicklung - Projektförderung
Projektnummer - 99457/2677
http://topic-s.de/
Martin Voigt, Michael Aleythe, Peter Wehner
2. Wer sind wir?
fink & PARTNER Media Services GmbH
Medien Management für Verlage
Einige Kunde
Lehrstuhl für Multimedia Technologie, TU Dresden
Forschungsfelder
Adaptive, komposite Rich Internet Applications
Semantisches Document Life Cycle Management
Friday, 14.06.2013 Topic/S Slide 1
5. Problem
Überwältigende Datenmenge für den Redakteur
z.B. WAZ 5000 Artikel/Tag (Agenturen & in-house)
Montag, 23.09.2013 Topic/S @ LSWT
DPA
Reuters
KNA
Twitter
Facebook
Blogs
…
Nachrichtenagenturen
Web, Social Media
…
In-house Produktion
Archive
Online
Slide 4
6. Vision
Automatische Themenerkennung unter Verwendung
von Named Entities und anderen Stichworten
(SemItem)
Identifikation von Thementrends
Information-Push statt Pull
Montag, 23.09.2013 Topic/S @ LSWT Slide 5
7. Struktur
Motivation, Probleme und Ziele
Topic/S Workflow
Überblick
Informationsextraktion
Speicherung
Themenerkennung
Demo
Zusammenfassung
Montag, 23.09.2013 Topic/S @ LSWT Slide 6
11. Semantisches Model
Montag, 23.09.2013 Topic/S @ LSWT Slide 10
Media SemItemMatch SemItem
Quellen: freemake.com, samepage.io, free-vectors.com, trendwatching.com, viamusical.de
12. Semantische Fakten
Keine Wortlisten für NER!
preferred und alternative Namen vorgehalten
ID: http://www.topic-s.de/topics-facts/id/person/Rene_Muller
Namen: Rene Muller, Rene Müller, René Muller, René Müller
Triples ohne SemItems: 31,3 Mio.
Montag, 23.09.2013 Topic/S @ LSWT Slide 11
SemItem Anzahl (alternative Namen)
Person 1.504.341 (2.499.962)
Organization 63.332 (98.127)
Place 89.702 (95.178)
Keyword 1351
13. Speicherung
Oracle 11gR2
Benchmark von Triple Stores [Voigt2012]
Pros
Bereits im Unternehmen für große Datenmengen im Einsatz
Integrierte Anfrage an relationale und semantische Daten
Cons
Inferenz
Unvollständiger SPARQL 1.1 Support
Einsatz von eigenen Regeln kaum möglich
Montag, 23.09.2013 Topic/S @ LSWT Slide 12
Quelle: musingmonika.com
14. Themenerkennung
Montag, 23.09.2013 Topic/S @ LSWT
Clustering
hierarchisches, agglomeratives Verfahren
Grundlage: Artikel und deren Entitäten
Eigenimplementierung aufgrund spezieller Herausforderungen
Ausführung und Zusammenfassung im Intervall Trend
Slide 13
15. Top-Cluster (vom 19.09.2013)
Themenerkennung
Montag, 23.09.2013 Topic/S @ LSWT
Artikel 5 wichtigsten SemItems HotTopic
68 Euro / Kind / Deutschland / Berlin / Bundeswehr Nein
52 Euro / Lufthansa / Milliarde / Boeing / Land Nordrhein-Westfalen Ja
44 Alternative für Deutschland / Partei / Umfrage / Bundestagswahl /
SPD
Ja
32 Federal Reserve System / US-Notenbank / Entscheidung / Dollar /
USA
Ja
28 SPD / Partei / CDU / Bundestagswahl / Wahlkampf Ja
26 Syrien / Vernichtung / Vereinte Nationen / USA / Washington Ja
22 Entschädigung / Euro / Bundesgerichtshof / Urteil / Kläger Ja
18 Präsident / Hassan Rowhani / USA / Regierung / Washington Ja
15 FDP / CDU / SPD / Berlin / Bundestagswahl Ja
Slide 14
19. Sum it up!
Ergebnis
Themenerkennung und Präsentation
gegenüber dem Redakteur
Lessons learned
NER: Schlecht für Non-English,
Kombination notwendig
Stete Modeloptimierung hinsichtlich
der Anfragen
Spezielle UI notwendig
Mögliche, nächste Schritte
„Vorhersage“ von Themen aufgrund
von kausalen und temporalen
Beziehungen
Montag, 23.09.2013 Topic/S @ LSWT Slide 18
Quelle: ooltapulta.com
http://www.w3.org/community/swisig/
20. Sächsische AufbauBank
Forschung und Entwicklung - Projektförderung
Projektnummer - 99457/2677
http://topic-s.de/
Danke! Fragen?
http://topic-s.de/
21. Quellen
[Voigt2012] Voigt, M., Mitschick, A. & Schulz, J.: Yet Another Triple
Store Benchmark? Practical Experiences with Real-World Data
Proc. of. the 2nd International Workshop on Semantic Digital
Archives (SDA), 2012
[Voigt2013] Voigt, M., Aleythe, M. & Wehner, P.: Towards
Topics-based, Semantics-assisted News Search.
Proceedings of the 3rd International Conference on Web
Intelligence, Mining and Semantics (WIMS'13), ACM,2013
Montag, 23.09.2013 Topic/S @ LSWT Slide 20