6. Oliver Paetzel, intranda GmbH 01.10.2014
6
Die Reise beginnt
Volltext mit Koordinaten
1
ALTO mit Koordinaten
2
3 4 5
7. Oliver Paetzel, intranda GmbH 01.10.2014
7
Natural Language Processing in Aktion
2. Named Entity Recognition
8. Oliver Paetzel, intranda GmbH 01.10.2014
8
2. Named Entity Recognition
Ist ein Teilgebiet des „Natural Language Processing“
Es geht darum benannte Instanzen/Entitäten in einem
Fließtext zu erkennen und zu markieren
Die Named Entities werden in Klassen eingeteilt. Die drei
klassischen Klassen sind „location“, „person“ und
„organization“
Es gibt regelbasierte und stochastische
Herangehensweisen
9. Oliver Paetzel, intranda GmbH 01.10.2014
9
Stanford NER
Wird aktiv weiterentwickelt
Nutzt intern den CRF(Conditional Random Field)
Algorithmus
Markiert wenige „false positives“
Ist robust gegenüber OCR-Fehlern
10. Oliver Paetzel, intranda GmbH 01.10.2014
10
Ein kleiner Umweg
Der Stanford NE Tagger muss trainiert werden
Dies geschieht zwar nur einmal pro Sprache bzw.
Werktyp, ist aber trotzdem wichtig
Von bereits vorhandenen Tools wurde uns abgeraten
oder sie waren zu überladen
→ Entwicklung eines eigenen Tools
11. Oliver Paetzel, intranda GmbH 01.10.2014
11
intranda NEAT
NEAT steht für „Named Entity Annotation Tool“
In einer einfachen Benutzeroberfläche können im Multi-
User Betrieb Trainingsdaten erfasst werden
Die Daten werden sowohl im Stanford NER
Traingsformat als auch als getaggtes ALTO-xml exportiert
15. Oliver Paetzel, intranda GmbH 01.10.2014
15
Die Reise geht weiter...
Volltext mit Koordinaten
1
ALTO mit Koordinaten
2
ALTO mit Named Entities
3
4 5
17. Oliver Paetzel, intranda GmbH 01.10.2014
17
3. Normdatenerfassung
Die Normdaten werden von der GND per SRU abgefragt
Wenn kein eindeutiger Trefer gefunden werden kann,
muss der Nutzer eingreifen → Crowdsourcing
Die Normdaten werden dann anhand eines Links zur rdf-
Präsentation der Normdaten in der DNB zum ALTO
hinzugefügt
18. Oliver Paetzel, intranda GmbH 01.10.2014
18
Warum Normdaten?
Mit den erkannten Named Entities alleine lässt sich noch
nicht viel anfangen
Durch die Normdaten in der GND wird die jeweilige
Named Entity noch einmal durch viele Metadaten
angereichert
Die GND ist noch nicht alles! Of sind auch Links zu
dbpedia oder viaf in der GND hinterlegt
19. Oliver Paetzel, intranda GmbH 01.10.2014
19
Die Reise geht abermals weiter...
Volltext mit Koordinaten
1
ALTO mit Koordinaten
2
ALTO mit Named Entities
3
ALTO mit Normdaten
4
5
21. Oliver Paetzel, intranda GmbH 01.10.2014
21
Ende der Reise (Live-Demo)
Volltext mit Koordinaten
1
ALTO mit Koordinaten
2
ALTO mit Named Entities
3
ALTO mit Normdaten
4
Spielereien mit LOD
5