SlideShare uma empresa Scribd logo
1 de 60
Baixar para ler offline
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
1 
Florian Zipser 
Humboldt-Universität zu Berlin 
SaltNPepper und das Formatpluriversum 
LAUDATIO Workshop 
2014-10-07
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
2 
Heterogene Domäne 
● Linguistische Daten und Phänomene erfordern 
viele Annotationsarten 
Morphologie
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
3 
Heterogene Domäne 
● Linguistische Daten und Phänomene erfordern 
viele Annotationsarten 
Morphologie 
Syntax
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
4 
Heterogene Domäne 
● Linguistische Daten und Phänomene erfordern 
viele Annotationsarten 
Morphologie 
Syntax 
Koreferenz
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
5 
Heterogene Domäne 
● Linguistische Daten und Phänomene erfordern 
viele Annotationsarten 
Morphologie 
Syntax 
Koreferenz 
Rhetorische Strukturen
SaltNPepper und das 
Formatpluriversum 
Gesprochene Daten 
Florian Zipser LAUDATIO workshop 
6 
Heterogene Domäne 
● Linguistische Daten und Phänomene erfordern 
viele Annotationsarten 
Morphologie 
Syntax 
Koreferenz 
Rhetorische Strukturen
SaltNPepper und das 
Formatpluriversum 
Gesprochene Daten 
Florian Zipser LAUDATIO workshop 
7 
Heterogene Domäne 
● Linguistische Daten und Phänomene erfordern 
viele Annotationsarten 
Morphologie 
Syntax 
Koreferenz 
Rhetorische Strukturen 
Dialoge
SaltNPepper und das 
Formatpluriversum 
Gesprochene Daten 
Florian Zipser LAUDATIO workshop 
8 
Heterogene Domäne 
● Linguistische Daten und Phänomene erfordern 
viele Annotationsarten 
Morphologie 
Syntax 
Koreferenz 
Rhetorische Strukturen 
Dialoge 
Unterschiedliche Sprachen
SaltNPepper und das 
Formatpluriversum 
Unterschiedliche Sprachen 
Gesprochene Daten 
Florian Zipser LAUDATIO workshop 
9 
Heterogene Domäne 
● Linguistische Daten und Phänomene erfordern 
viele Annotationsarten 
Morphologie 
Syntax 
Koreferenz 
Rhetorische Strukturen 
Dialoge 
Verschiedene Sprachstufen
SaltNPepper und das 
Formatpluriversum 
Heterogene Domäne 
Florian Zipser LAUDATIO workshop 
10 
● Viele Tools, um Daten zu bearbeiten: 
– Manuelle Annotationstools 
– semi-automatische Annotationstools 
– Automatische Annotationstools 
– Suchtools 
– Visualisierungstools
SaltNPepper und das 
Formatpluriversum 
Heterogene Domäne 
Florian Zipser LAUDATIO workshop 
11 
● Viele Tools, um Daten zu bearbeiten: 
● EXMARaLDA 
● Praat 
● ELAN 
● Tiger search 
● ANNIS 
● Gate 
● @nnotate 
● TrED 
● Parser (Berkley, MALT, …) 
● Arborator 
● Toolbox 
● Synpathie 
● TreeTagger 
● Weblicht 
● MMAX2 
● RST 
● UIMA 
● WebANNO 
● ATOMIC 
● UAM 
● UIMA (dkpro, ...) 
● ...
SaltNPepper und das 
Formatpluriversum 
Heterogene Domäne 
GATE XML MMAX2 format 
TreeTagger format 
Florian Zipser LAUDATIO workshop 
12 
● Viele verschiedene Formate 
TigerXML 
PAULA 
UAM format 
TCF 
rs3 
PML 
CoNLL 
PTB format 
Negra MAF 
TEI 
GrAF ANNIS format 
EXMARaLDA format 
ELAN format 
TextGrid 
Toolbox format 
XLSX 
Generic XML 
UIMA CAS
SaltNPepper und das 
Formatpluriversum 
Interoperabilität 
Florian Zipser LAUDATIO workshop 
13 
● Problem 1: Interoperabilität 
– Viele Tools → gut, Nutzer können wählen 
– Aber 
● Tools können nur selten interagieren 
● Primärdaten müssen mehrmals aufbereitet werden 
(Tokenisierung)
SaltNPepper und das 
Formatpluriversum 
Mehrebenenkorpora 
Florian Zipser LAUDATIO workshop 
14 
● Problem 2: Mehrebenenkorpora 
– Annotation unterschiedlicher Annotationsarten 
(Morphologie, Syntax, Koreferenzen) erfordert 
defacto unterschiedliche Korpora 
– Aber: wir brauchen ein Korpus, das alles enthält
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
15 
Nachhaltigkeit 
● Problem 3: Nachhaltigkeit 
– Einige Tools werden nicht mehr weiterentwickelt 
● Formate werden nicht weiter unterstützt 
● Was ist mit den Daten???
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
16 
Nachhaltigkeit 
● Nachhaltigkeit der Daten erfordert 
Nachhaltigkeit der Speicherung 
– Im Web: HTML (W3C) 
– Allgemeine Datenbeschreibung: XML (W3C), JSON 
– Modellierung: UML/ XMI (OASIS) 
– Freitext: PDF bzw. pdf-a
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
17 
Nachhaltigkeit 
● Es gibt ideen zur Standardisierung: 
– TEI (TEI consortium) 
– GrAF (ISO) 
– MAF (ISO) 
– SynAF/isoTiger (ISO) 
Aber nur wenige Tools arbeiten damit, z.T. 
– Sehr komplex 
– Unausgereift 
– Standards oft jünger als Tool
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
18 
Anforderungen 
● Was wir brauchen: 
– Übertragung alter Daten in neue Formate/ 
Standards (Nachhaltigkeit) 
– Austausch der Daten zwischen unterschiedlichen 
Tools (Interoperabilität) 
– Verschmelzen verschiedener Annotationsarten und 
-ebenen (Mehrebenenkorpora)
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
19 
SaltNPepper 
● Nachhaltigkeit: 
Format XXX TEI 
GrAF 
MAF 
SynAF
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
20 
SaltNPepper 
● Austausch: 
ELAN format EXMARaLDA format
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
21 
SaltNPepper 
● Austausch: 
ELAN format EXMARaLDA format 
EXMARaLDA format ELAN format
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
22 
SaltNPepper 
● Austausch: 
ELAN format EXMARaLDA format 
EXMARaLDA format ELAN format 
Praat format Praat format
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
23 
SaltNPepper 
● Austausch: 
ELAN format EXMARaLDA format 
EXMARaLDA format ELAN format 
Praat format Praat format 
PAULA 
TigerXML 
ANNIS format 
... 
PAULA 
TigerXML 
ANNIS format 
...
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
24 
SaltNPepper 
● Austausch: 
ELAN format EXMARaLDA format 
EXMARaLDA format ELAN format 
Praat format Praat format 
PAULA 
TigerXML 
ANNIS format 
... 
PAULA 
TigerXML 
ANNIS format 
... 
n²-n Mappings 
● Jedes einzelne muss 
implementiert werden
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
25 
SaltNPepper 
● Austausch: 
ELAN format EXMARaLDA format 
EXMARaLDA format ELAN format 
Praat format Praat format 
PAULA 
TigerXML 
ANNIS format 
... 
PAULA 
TigerXML 
ANNIS format 
... 
Gemeinsammes 
Modell
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
26 
SaltNPepper 
● Austausch: 
ELAN format EXMARaLDA format 
EXMARaLDA format ELAN format 
Praat format Praat format 
PAULA 
TigerXML 
ANNIS format 
... 
PAULA 
TigerXML 
ANNIS format 
... 
Gemeinsames 
Modell 
Reduzierung auf 2n 
Mappings
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
27 
Salt 
● Anforderungen an Metamodell: 
– Tagsetunabhängig 
– Beliebige Annotationsebenen 
– Unterschiedliche Annotationsarten 
– Theorieneutral
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
28 
Salt 
● Salt ist ein Graph? 
– Ein Graph G= (V, E) mit: 
● Einer Menge an Knoten V 
● Einer Menge an Kanten E mit e= (v1 ε V, v2 ε V) ε E.
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
29 
Salt 
● Ein Graph in der Linguistik?
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
30 
Salt 
● Ein Graph in der Linguistik?
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
31 
Salt 
● Ein Graph in der Linguistik?
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
32 
Salt 
● Ist das noch ein Graph?
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
33 
Salt 
● Und das?
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
34 
Salt 
● Oder das?
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
35 
Salt 
● Für Salt ja!
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
36 
Salt 
Primärtext: Die Jugendlichen in Zossen wollen ein Musikcafé.
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
37 
Salt 
Primärtext: DDiiee JJuuggeennddlliicchheenn iinn ZZoosssseenn wwoolllleenn eeiinn MMuussiikkccaafféé..
SaltNPepper und das 
Formatpluriversum 
Tokenisierung: 2 t2 
5,16 
3 t3 
17,19 
4 t4 
20,26 
5 t5 
27,33 
Florian Zipser LAUDATIO workshop 
38 
Salt 
1 t1 
0,4 
7 t7 
38,47 
6 t6 
34,37 
Primärtext: DDiiee JJuuggeennddlliicchheenn iinn ZZoosssseenn wwoolllleenn eeiinn MMuussiikkccaafféé..
SaltNPepper und das 
Formatpluriversum 
Annotation: AARRTT NNNN AAPPPPRR NNEE VVMMFFIINN AARRTT NNNN 
Tokenisierung: 2 t2 
5,16 
3 t3 
17,19 
4 t4 
20,26 
5 t5 
27,33 
Florian Zipser LAUDATIO workshop 
39 
Salt 
1 t1 
0,4 
7 t7 
38,47 
6 t6 
34,37 
Primärtext: DDiiee JJuuggeennddlliicchheenn iinn ZZoosssseenn wwoolllleenn eeiinn MMuussiikkccaafféé..
SaltNPepper und das 
Formatpluriversum 
Annotation: IInnff--SSttaatt== nneeww IInnff--SSttaatt== nneeww IInnff--SSttaatt== nneeww 
Mengen: 1 s1 2 s2 3 s3 
Tokenisierung: 2 t2 
5,16 
3 t3 
17,19 
4 t4 
20,26 
5 t5 
27,33 
Florian Zipser LAUDATIO workshop 
40 
Salt 
1 t1 
0,4 
7 t7 
38,47 
6 t6 
34,37 
Primärtext: DDiiee JJuuggeennddlliicchheenn iinn ZZoosssseenn wwoolllleenn eeiinn MMuussiikkccaafféé..
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
41 
Salt 
Kanten: 
Tokenisierung: 
Primärtext:
SaltNPepper und das 
Formatpluriversum 
Hierarchien: 
2 s2 
SSBB HHDD OOAA 
MMNNRR 
NNPP 
1 sNNKK NNKK 1 
Tokenisierung: 2 t2 
5,16 
1 s1 
PPPP 
SS 
3 s3 4 4 
AACC NNKK 
3 t3 
17,19 
4 t4 
20,26 
5 t5 
27,33 
Florian Zipser LAUDATIO workshop 
NNPP 
42 
Salt 
1 t1 
0,4 
NNKK NNKK 
7 t7 
38,47 
6 t6 
34,37 
Primärtext: DDiiee JJuuggeennddlliicchheenn iinn ZZoosssseenn wwoolllleenn eeiinn MMuussiikkccaafféé..
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
43 
Salt 
● Anforderungen an Metamodell: 
Tagsetunabhängig 
frei wählbare Attribut-Wert-Paare für Labels 
Beliebige Annotationsebenen 
unbegrenzte Anzahl an Labels 
Unterschiedliche Annotationsarten 
alles, was als Graph darstellbar ist 
Theorieneutral 
Semantikarmut, Salt kennt nur Zeichenketten
SaltNPepper und das 
Formatpluriversum 
Pepper 
module 
Pepper 
module 
Pepper 
module 
Florian Zipser LAUDATIO workshop 
44 
Pepper 
● Pepper 
– Converterframework 
– Basiert auf Salt 
– Nur eine Infrastruktur, die Arbeit machen die 
Plugins 
Pepper 
Salt SSGGrarapphh 
SSNNooddee SSRReelalatitoionn 
Pepper 
module 
TTigigeerrXXMMLL 
PPAAUULLAA 
AANNNNIISS 
......
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
45 
Pepper 
● Drei Arten von Modulen: 
– Importer: Format A → Salt 
– Manipulator: Salt → Salt 
– Exporter: Salt → Format B 
PPAAUULLAA ANNIS 
format 
PAULAImporter 
Salt 
ANNISExporter
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
46 
Pepper 
● Drei Arten von Modulen: 
– Importer: Format A → Salt 
– Manipulator: Salt → Salt 
– Exporter: Salt → Format B 
PPAAUULLAA – Kombinierbarkeit 
ANNIS 
format 
PAULAImporter 
Salt 
ANNISExporter 
TTiiggeerrXXMMLL ANNIS 
format 
TigerImporter 
Salt 
ANNISExporter
SaltNPepper und das 
Formatpluriversum 
Manipulator 
(Sentencer) 
PAULAImporter ANNISExporter 
Florian Zipser LAUDATIO workshop 
47 
Pepper 
● Manipulation 
PPAAUULLAA ANNIS 
format 
Salt Salt
SaltNPepper und das 
Formatpluriversum 
Manipulator 
(Sentencer) 
PAULAImporter ANNISExporter 
Manipulator 
(Sentencer) 
TigerImporter ANNISExporter 
Florian Zipser LAUDATIO workshop 
48 
Pepper 
● Manipulation 
PPAAUULLAA ● Kombinierbarkeit 
ANNIS 
format 
Salt Salt 
TTiiggeerrXXMMLL ANNIS 
format 
Salt Salt
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
49 
Anforderungen 
● Was wir brauchen: 
Übertragung alter Daten in neue Formate/ 
Standards (Nachhaltigkeit) 
Austausch der Daten zwischen unterschiedlichen 
Tools (Interoperabilität) 
Verschmelzen verschiedener Annotationsarten und 
-ebenen (Mehrebenenkorpora)
SaltNPepper und das 
Formatpluriversum 
Mehrebenenkorpora 
● Mehrebenenkorpora: 
verschiedene Annotationsarten gemeinsam durchsuchen und 
anzeigen 
Florian Zipser LAUDATIO workshop 
50
SaltNPepper und das 
Formatpluriversum 
Mehrebenenkorpora 
● Problem: es gibt nur wenige 
Mehrebenenannotationstools (bspw. WebAnno, 
ATOMIC) 
Florian Zipser LAUDATIO workshop 
51 
● Idee: Verschmelzen der unterschiedlichen 
Formate (und somit der Ebenen) 
TigerXML 
RS3 
CoNLL 
PTB
SaltNPepper und das 
Formatpluriversum 
Mehrebenenkorpora 
nneeww nneeww nneeww 
1 s1 2 s2 3 s3 
Florian Zipser LAUDATIO workshop 
52 
● Salt reduziert Merging zu Graphmerging 
2 t2 1 t 1 3 t3 4 t4 5 t5 7 t7 6 t 6
SaltNPepper und das 
Formatpluriversum 
Mehrebenenkorpora 
nneeww nneeww nneeww 
1 s1 2 s2 3 s3 
Florian Zipser LAUDATIO workshop 
53 
● Salt reduziert Merging zu Graphmerging 
2 t2 1 t 1 3 t3 4 t4 5 t5 7 t7 6 t 6
SaltNPepper und das 
Formatpluriversum 
Mehrebenenkorpora 
Salt 
Florian Zipser LAUDATIO workshop 
ANNISExporter 
54 
● Merger ist Plugin für Pepper (Manipulator) 
TigerImporter 
TTiiggeerrXXMMLL 
ANNIS 
format 
Salt 
Merger 
RSTImporter 
rrss33 
Salt
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
55 
Anforderungen 
● Was wir brauchen: 
Übertragung alter Daten in neue Formate/ 
Standards (Nachhaltigkeit) 
Austausch der Daten zwischen unterschiedlichen 
Tools (Interoperabilität) 
Verschmelzen verschiedener Annotationsarten und 
-ebenen (Mehrebenenkorpora)
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
56 
Fazit 
● SaltNPepper 
– Konvertierung von Korpora zwischen Formaten 
– Erweiterbarkeit um neue Formate (Plugins) 
– Open Source (Apache License 2.0) 
– Öffentliche Plattform: GitHub 
● https://github.com/korpling/pepper 
● https://github.com/korpling/salt
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
57 
Fazit 
● Nachhaltigkeit von Korpora, Formaten und 
Software hängt zusammen 
● Problem: Projekte sind befristet! 
– Oft stirbt Software nach Ende eines Projektes → 
Verlust von Geld und Zeit
SaltNPepper und das 
Formatpluriversum 
Florian Zipser LAUDATIO workshop 
58 
Fazit 
● Nachhaltigkeit von Korpora, Formaten und 
Software hängt zusammen 
● Problem: Projekte sind befristet! 
– Oft stirbt Software nach Ende eines Projektes → 
Verlust von Geld und Zeit 
● Software braucht zum Überleben: 
– Aktive Entwicklercommunity 
– Open Source 
– Öffentliche Plattform 
– Gute Dokumentation
SaltNPepper und das 
Formatpluriversum 
Danke für Ihre 
Aufmerksamkeit 
Tiger 
Florian Zipser LAUDATIO workshop 
59 
PAULA 
Pepper 
you 
your 
weapon 
the format 
monster 
TEI 
PTB 
ANNIS 
GrAF 
EXMARaLDA 
MMAX2 
RST
SaltNPepper und das 
Formatpluriversum 
● Diese Folien wurden erstellt unter Verwendung 
von: 
Florian Zipser LAUDATIO workshop 
60 
– Yuml http://yuml.me 
– Openclipart http://openclipart.org

Mais conteúdo relacionado

Destaque (14)

Reef Argentina4568
Reef Argentina4568Reef Argentina4568
Reef Argentina4568
 
Critical perspectives
Critical perspectivesCritical perspectives
Critical perspectives
 
Intan ayudhani xii ipa 4
Intan ayudhani xii ipa 4Intan ayudhani xii ipa 4
Intan ayudhani xii ipa 4
 
H: Drive
H: Drive H: Drive
H: Drive
 
Kebijakan pendidikan lingkungan hidup
Kebijakan pendidikan lingkungan hidupKebijakan pendidikan lingkungan hidup
Kebijakan pendidikan lingkungan hidup
 
I n g g r i s
I n g g r i sI n g g r i s
I n g g r i s
 
Archive #1
Archive #1Archive #1
Archive #1
 
Mantic point pte 2011 03 v1.1
Mantic point pte 2011 03 v1.1Mantic point pte 2011 03 v1.1
Mantic point pte 2011 03 v1.1
 
Iphone 5
Iphone 5Iphone 5
Iphone 5
 
Slideshow
SlideshowSlideshow
Slideshow
 
Jpph moa-02
Jpph moa-02Jpph moa-02
Jpph moa-02
 
Power, Death & Love
Power, Death & LovePower, Death & Love
Power, Death & Love
 
Draft 3 script
Draft 3 scriptDraft 3 script
Draft 3 script
 
Stevinson virus
Stevinson virusStevinson virus
Stevinson virus
 

SaltNPepper und das Formatpluriversum

  • 1. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 1 Florian Zipser Humboldt-Universität zu Berlin SaltNPepper und das Formatpluriversum LAUDATIO Workshop 2014-10-07
  • 2. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 2 Heterogene Domäne ● Linguistische Daten und Phänomene erfordern viele Annotationsarten Morphologie
  • 3. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 3 Heterogene Domäne ● Linguistische Daten und Phänomene erfordern viele Annotationsarten Morphologie Syntax
  • 4. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 4 Heterogene Domäne ● Linguistische Daten und Phänomene erfordern viele Annotationsarten Morphologie Syntax Koreferenz
  • 5. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 5 Heterogene Domäne ● Linguistische Daten und Phänomene erfordern viele Annotationsarten Morphologie Syntax Koreferenz Rhetorische Strukturen
  • 6. SaltNPepper und das Formatpluriversum Gesprochene Daten Florian Zipser LAUDATIO workshop 6 Heterogene Domäne ● Linguistische Daten und Phänomene erfordern viele Annotationsarten Morphologie Syntax Koreferenz Rhetorische Strukturen
  • 7. SaltNPepper und das Formatpluriversum Gesprochene Daten Florian Zipser LAUDATIO workshop 7 Heterogene Domäne ● Linguistische Daten und Phänomene erfordern viele Annotationsarten Morphologie Syntax Koreferenz Rhetorische Strukturen Dialoge
  • 8. SaltNPepper und das Formatpluriversum Gesprochene Daten Florian Zipser LAUDATIO workshop 8 Heterogene Domäne ● Linguistische Daten und Phänomene erfordern viele Annotationsarten Morphologie Syntax Koreferenz Rhetorische Strukturen Dialoge Unterschiedliche Sprachen
  • 9. SaltNPepper und das Formatpluriversum Unterschiedliche Sprachen Gesprochene Daten Florian Zipser LAUDATIO workshop 9 Heterogene Domäne ● Linguistische Daten und Phänomene erfordern viele Annotationsarten Morphologie Syntax Koreferenz Rhetorische Strukturen Dialoge Verschiedene Sprachstufen
  • 10. SaltNPepper und das Formatpluriversum Heterogene Domäne Florian Zipser LAUDATIO workshop 10 ● Viele Tools, um Daten zu bearbeiten: – Manuelle Annotationstools – semi-automatische Annotationstools – Automatische Annotationstools – Suchtools – Visualisierungstools
  • 11. SaltNPepper und das Formatpluriversum Heterogene Domäne Florian Zipser LAUDATIO workshop 11 ● Viele Tools, um Daten zu bearbeiten: ● EXMARaLDA ● Praat ● ELAN ● Tiger search ● ANNIS ● Gate ● @nnotate ● TrED ● Parser (Berkley, MALT, …) ● Arborator ● Toolbox ● Synpathie ● TreeTagger ● Weblicht ● MMAX2 ● RST ● UIMA ● WebANNO ● ATOMIC ● UAM ● UIMA (dkpro, ...) ● ...
  • 12. SaltNPepper und das Formatpluriversum Heterogene Domäne GATE XML MMAX2 format TreeTagger format Florian Zipser LAUDATIO workshop 12 ● Viele verschiedene Formate TigerXML PAULA UAM format TCF rs3 PML CoNLL PTB format Negra MAF TEI GrAF ANNIS format EXMARaLDA format ELAN format TextGrid Toolbox format XLSX Generic XML UIMA CAS
  • 13. SaltNPepper und das Formatpluriversum Interoperabilität Florian Zipser LAUDATIO workshop 13 ● Problem 1: Interoperabilität – Viele Tools → gut, Nutzer können wählen – Aber ● Tools können nur selten interagieren ● Primärdaten müssen mehrmals aufbereitet werden (Tokenisierung)
  • 14. SaltNPepper und das Formatpluriversum Mehrebenenkorpora Florian Zipser LAUDATIO workshop 14 ● Problem 2: Mehrebenenkorpora – Annotation unterschiedlicher Annotationsarten (Morphologie, Syntax, Koreferenzen) erfordert defacto unterschiedliche Korpora – Aber: wir brauchen ein Korpus, das alles enthält
  • 15. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 15 Nachhaltigkeit ● Problem 3: Nachhaltigkeit – Einige Tools werden nicht mehr weiterentwickelt ● Formate werden nicht weiter unterstützt ● Was ist mit den Daten???
  • 16. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 16 Nachhaltigkeit ● Nachhaltigkeit der Daten erfordert Nachhaltigkeit der Speicherung – Im Web: HTML (W3C) – Allgemeine Datenbeschreibung: XML (W3C), JSON – Modellierung: UML/ XMI (OASIS) – Freitext: PDF bzw. pdf-a
  • 17. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 17 Nachhaltigkeit ● Es gibt ideen zur Standardisierung: – TEI (TEI consortium) – GrAF (ISO) – MAF (ISO) – SynAF/isoTiger (ISO) Aber nur wenige Tools arbeiten damit, z.T. – Sehr komplex – Unausgereift – Standards oft jünger als Tool
  • 18. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 18 Anforderungen ● Was wir brauchen: – Übertragung alter Daten in neue Formate/ Standards (Nachhaltigkeit) – Austausch der Daten zwischen unterschiedlichen Tools (Interoperabilität) – Verschmelzen verschiedener Annotationsarten und -ebenen (Mehrebenenkorpora)
  • 19. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 19 SaltNPepper ● Nachhaltigkeit: Format XXX TEI GrAF MAF SynAF
  • 20. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 20 SaltNPepper ● Austausch: ELAN format EXMARaLDA format
  • 21. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 21 SaltNPepper ● Austausch: ELAN format EXMARaLDA format EXMARaLDA format ELAN format
  • 22. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 22 SaltNPepper ● Austausch: ELAN format EXMARaLDA format EXMARaLDA format ELAN format Praat format Praat format
  • 23. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 23 SaltNPepper ● Austausch: ELAN format EXMARaLDA format EXMARaLDA format ELAN format Praat format Praat format PAULA TigerXML ANNIS format ... PAULA TigerXML ANNIS format ...
  • 24. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 24 SaltNPepper ● Austausch: ELAN format EXMARaLDA format EXMARaLDA format ELAN format Praat format Praat format PAULA TigerXML ANNIS format ... PAULA TigerXML ANNIS format ... n²-n Mappings ● Jedes einzelne muss implementiert werden
  • 25. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 25 SaltNPepper ● Austausch: ELAN format EXMARaLDA format EXMARaLDA format ELAN format Praat format Praat format PAULA TigerXML ANNIS format ... PAULA TigerXML ANNIS format ... Gemeinsammes Modell
  • 26. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 26 SaltNPepper ● Austausch: ELAN format EXMARaLDA format EXMARaLDA format ELAN format Praat format Praat format PAULA TigerXML ANNIS format ... PAULA TigerXML ANNIS format ... Gemeinsames Modell Reduzierung auf 2n Mappings
  • 27. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 27 Salt ● Anforderungen an Metamodell: – Tagsetunabhängig – Beliebige Annotationsebenen – Unterschiedliche Annotationsarten – Theorieneutral
  • 28. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 28 Salt ● Salt ist ein Graph? – Ein Graph G= (V, E) mit: ● Einer Menge an Knoten V ● Einer Menge an Kanten E mit e= (v1 ε V, v2 ε V) ε E.
  • 29. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 29 Salt ● Ein Graph in der Linguistik?
  • 30. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 30 Salt ● Ein Graph in der Linguistik?
  • 31. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 31 Salt ● Ein Graph in der Linguistik?
  • 32. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 32 Salt ● Ist das noch ein Graph?
  • 33. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 33 Salt ● Und das?
  • 34. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 34 Salt ● Oder das?
  • 35. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 35 Salt ● Für Salt ja!
  • 36. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 36 Salt Primärtext: Die Jugendlichen in Zossen wollen ein Musikcafé.
  • 37. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 37 Salt Primärtext: DDiiee JJuuggeennddlliicchheenn iinn ZZoosssseenn wwoolllleenn eeiinn MMuussiikkccaafféé..
  • 38. SaltNPepper und das Formatpluriversum Tokenisierung: 2 t2 5,16 3 t3 17,19 4 t4 20,26 5 t5 27,33 Florian Zipser LAUDATIO workshop 38 Salt 1 t1 0,4 7 t7 38,47 6 t6 34,37 Primärtext: DDiiee JJuuggeennddlliicchheenn iinn ZZoosssseenn wwoolllleenn eeiinn MMuussiikkccaafféé..
  • 39. SaltNPepper und das Formatpluriversum Annotation: AARRTT NNNN AAPPPPRR NNEE VVMMFFIINN AARRTT NNNN Tokenisierung: 2 t2 5,16 3 t3 17,19 4 t4 20,26 5 t5 27,33 Florian Zipser LAUDATIO workshop 39 Salt 1 t1 0,4 7 t7 38,47 6 t6 34,37 Primärtext: DDiiee JJuuggeennddlliicchheenn iinn ZZoosssseenn wwoolllleenn eeiinn MMuussiikkccaafféé..
  • 40. SaltNPepper und das Formatpluriversum Annotation: IInnff--SSttaatt== nneeww IInnff--SSttaatt== nneeww IInnff--SSttaatt== nneeww Mengen: 1 s1 2 s2 3 s3 Tokenisierung: 2 t2 5,16 3 t3 17,19 4 t4 20,26 5 t5 27,33 Florian Zipser LAUDATIO workshop 40 Salt 1 t1 0,4 7 t7 38,47 6 t6 34,37 Primärtext: DDiiee JJuuggeennddlliicchheenn iinn ZZoosssseenn wwoolllleenn eeiinn MMuussiikkccaafféé..
  • 41. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 41 Salt Kanten: Tokenisierung: Primärtext:
  • 42. SaltNPepper und das Formatpluriversum Hierarchien: 2 s2 SSBB HHDD OOAA MMNNRR NNPP 1 sNNKK NNKK 1 Tokenisierung: 2 t2 5,16 1 s1 PPPP SS 3 s3 4 4 AACC NNKK 3 t3 17,19 4 t4 20,26 5 t5 27,33 Florian Zipser LAUDATIO workshop NNPP 42 Salt 1 t1 0,4 NNKK NNKK 7 t7 38,47 6 t6 34,37 Primärtext: DDiiee JJuuggeennddlliicchheenn iinn ZZoosssseenn wwoolllleenn eeiinn MMuussiikkccaafféé..
  • 43. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 43 Salt ● Anforderungen an Metamodell: Tagsetunabhängig frei wählbare Attribut-Wert-Paare für Labels Beliebige Annotationsebenen unbegrenzte Anzahl an Labels Unterschiedliche Annotationsarten alles, was als Graph darstellbar ist Theorieneutral Semantikarmut, Salt kennt nur Zeichenketten
  • 44. SaltNPepper und das Formatpluriversum Pepper module Pepper module Pepper module Florian Zipser LAUDATIO workshop 44 Pepper ● Pepper – Converterframework – Basiert auf Salt – Nur eine Infrastruktur, die Arbeit machen die Plugins Pepper Salt SSGGrarapphh SSNNooddee SSRReelalatitoionn Pepper module TTigigeerrXXMMLL PPAAUULLAA AANNNNIISS ......
  • 45. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 45 Pepper ● Drei Arten von Modulen: – Importer: Format A → Salt – Manipulator: Salt → Salt – Exporter: Salt → Format B PPAAUULLAA ANNIS format PAULAImporter Salt ANNISExporter
  • 46. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 46 Pepper ● Drei Arten von Modulen: – Importer: Format A → Salt – Manipulator: Salt → Salt – Exporter: Salt → Format B PPAAUULLAA – Kombinierbarkeit ANNIS format PAULAImporter Salt ANNISExporter TTiiggeerrXXMMLL ANNIS format TigerImporter Salt ANNISExporter
  • 47. SaltNPepper und das Formatpluriversum Manipulator (Sentencer) PAULAImporter ANNISExporter Florian Zipser LAUDATIO workshop 47 Pepper ● Manipulation PPAAUULLAA ANNIS format Salt Salt
  • 48. SaltNPepper und das Formatpluriversum Manipulator (Sentencer) PAULAImporter ANNISExporter Manipulator (Sentencer) TigerImporter ANNISExporter Florian Zipser LAUDATIO workshop 48 Pepper ● Manipulation PPAAUULLAA ● Kombinierbarkeit ANNIS format Salt Salt TTiiggeerrXXMMLL ANNIS format Salt Salt
  • 49. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 49 Anforderungen ● Was wir brauchen: Übertragung alter Daten in neue Formate/ Standards (Nachhaltigkeit) Austausch der Daten zwischen unterschiedlichen Tools (Interoperabilität) Verschmelzen verschiedener Annotationsarten und -ebenen (Mehrebenenkorpora)
  • 50. SaltNPepper und das Formatpluriversum Mehrebenenkorpora ● Mehrebenenkorpora: verschiedene Annotationsarten gemeinsam durchsuchen und anzeigen Florian Zipser LAUDATIO workshop 50
  • 51. SaltNPepper und das Formatpluriversum Mehrebenenkorpora ● Problem: es gibt nur wenige Mehrebenenannotationstools (bspw. WebAnno, ATOMIC) Florian Zipser LAUDATIO workshop 51 ● Idee: Verschmelzen der unterschiedlichen Formate (und somit der Ebenen) TigerXML RS3 CoNLL PTB
  • 52. SaltNPepper und das Formatpluriversum Mehrebenenkorpora nneeww nneeww nneeww 1 s1 2 s2 3 s3 Florian Zipser LAUDATIO workshop 52 ● Salt reduziert Merging zu Graphmerging 2 t2 1 t 1 3 t3 4 t4 5 t5 7 t7 6 t 6
  • 53. SaltNPepper und das Formatpluriversum Mehrebenenkorpora nneeww nneeww nneeww 1 s1 2 s2 3 s3 Florian Zipser LAUDATIO workshop 53 ● Salt reduziert Merging zu Graphmerging 2 t2 1 t 1 3 t3 4 t4 5 t5 7 t7 6 t 6
  • 54. SaltNPepper und das Formatpluriversum Mehrebenenkorpora Salt Florian Zipser LAUDATIO workshop ANNISExporter 54 ● Merger ist Plugin für Pepper (Manipulator) TigerImporter TTiiggeerrXXMMLL ANNIS format Salt Merger RSTImporter rrss33 Salt
  • 55. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 55 Anforderungen ● Was wir brauchen: Übertragung alter Daten in neue Formate/ Standards (Nachhaltigkeit) Austausch der Daten zwischen unterschiedlichen Tools (Interoperabilität) Verschmelzen verschiedener Annotationsarten und -ebenen (Mehrebenenkorpora)
  • 56. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 56 Fazit ● SaltNPepper – Konvertierung von Korpora zwischen Formaten – Erweiterbarkeit um neue Formate (Plugins) – Open Source (Apache License 2.0) – Öffentliche Plattform: GitHub ● https://github.com/korpling/pepper ● https://github.com/korpling/salt
  • 57. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 57 Fazit ● Nachhaltigkeit von Korpora, Formaten und Software hängt zusammen ● Problem: Projekte sind befristet! – Oft stirbt Software nach Ende eines Projektes → Verlust von Geld und Zeit
  • 58. SaltNPepper und das Formatpluriversum Florian Zipser LAUDATIO workshop 58 Fazit ● Nachhaltigkeit von Korpora, Formaten und Software hängt zusammen ● Problem: Projekte sind befristet! – Oft stirbt Software nach Ende eines Projektes → Verlust von Geld und Zeit ● Software braucht zum Überleben: – Aktive Entwicklercommunity – Open Source – Öffentliche Plattform – Gute Dokumentation
  • 59. SaltNPepper und das Formatpluriversum Danke für Ihre Aufmerksamkeit Tiger Florian Zipser LAUDATIO workshop 59 PAULA Pepper you your weapon the format monster TEI PTB ANNIS GrAF EXMARaLDA MMAX2 RST
  • 60. SaltNPepper und das Formatpluriversum ● Diese Folien wurden erstellt unter Verwendung von: Florian Zipser LAUDATIO workshop 60 – Yuml http://yuml.me – Openclipart http://openclipart.org