7. www.sti-innsbruck.at
1. Motivation
1) Wie viele Hotels verwenden schema.org?
2) Wie wird schema.org verwendet?
1) Welche Klassen?
2) Welche Attribute?
3) Wird schema.org richtig eingesetzt?
3) Wer verwendet schema.org im touristischen Bereich?
7
8. www.sti-innsbruck.at
2. Daten
Was ist schema.org?
• Initiative geründet 2011
• Ontologie zur Strukturierung von Daten auf Webseiten
• In HTML eingebunden
– Microdata
– RDFa
– JSON-LD
Source: http://www.schema.org
8
9. www.sti-innsbruck.at
2. Daten
Analyse aller Webseiten:
• Gegründet 2007
• Non-Profit Organisation
• Erfasst (crawlt) Internet 4 mal pro Jahr
• Datensätze frei zugänglich
• November 2013: 2,3 Milliarden Webseiten, 148TB
• Dezember 2014: 2,1 Milliarden Webseiten, 160TB
Source: http://commoncrawl.org/the-data/get-started/
9
10. www.sti-innsbruck.at
2. Daten
Reduktion auf Strukturierte Daten:
WebDataCommons:
• 2012 Freie Universität Berlin & KIT
• Derzeit Uni Mannheim
• Leitung: Chris Bizer
• Extrahieren aller strukturierter Daten aus Common Crawl
– Web Tabellen: 147 Mio. relationale Tab. (11 Mrd. HTML Tab.)
– Hyperlink Graph: 3,5 Mrd. Webseiten, 128 Mrd. Links
– Semantisch annotierte Daten:
• November 2013: 44TB, 2.2 Mrd. URLs
• Dezember 2014: 160TB, 2 Mrd. URLs
Source: http://webdatacommons.org/structureddata/
10
11. www.sti-innsbruck.at
2. Daten
• November 2013 Datensatz
• Subset: schema.org/Hotel
– 35GB
– 127 Mio. Triples
• OWLIM-SE Repository
• SPARQL Anfragen
• Linux Debian 3.2, STI
11
12. www.sti-innsbruck.at
3. Analyse
1) Wie viele Hotels sind schema.org annotiert?
4.841.353
• Hotels doppelt annotiert
– Eigene Webseite
– Buchungs Webseite
740.298
• Alle Hotels mit gleichem Namen verloren
– Adler, Post, ...
An Adresse binden!
12
21. www.sti-innsbruck.at
3. Analyse
3) Wer verwendet schema.org im touristischen Bereich
Hypothese:
„Schema.org wird überwiegend von Booking- und
Ratingseiten verwendet, kaum auf Hotelseiten direkt.“
21
22. www.sti-innsbruck.at
3. Analyse
Ansatz:
• Hotels auf Booking- & Ratingseiten
suche nach annotation auf eigener Webseite
• Gegenprobe mit annotierten Hotelswebseiten
Mehrfache Vorkommen im Datensatz?
Dezeit: exemplarisch (Top-Buchungsseiten)
Nächster Schritt: vollständiger Datensatz
22
23. www.sti-innsbruck.at
3. Analyse
Resymee:
• Hauptanwender von schema.org/Hotel:
Buchungs- und Ratingseiten
Fehler:
Unvollständig
Falsche Klassen
Falsche Attribute
Falsche Datentypen
Vollständige Fehleranalyse: Uni Mannheim
(R. Meusel & H. Paulheim) [1]
[1] http://dws.informatik.uni-mannheim.de/fileadmin/lehrstuehle/ki/pub/MeuselPaulheim-HeuristicsForFixingCommonErrorsInDeployedSchemaOrgMicrodata-ESWC2015.pdf
23