SlideShare uma empresa Scribd logo
1 de 26
Baixar para ler offline
© Copyright 2015 STI INNSBRUCK www.sti-innsbruck.at
Elias Kärle – 17. April 2015 – Tourism Fast Forward 2015, Mayrhofen, Tirol
schema.org auf
Hotelwebseiten
@eliaska
#tff_15
www.sti-innsbruck.at
Inhalt
1. Motivation
2. Daten
3. Analyse
www.sti-innsbruck.at
1. Motivation
3
www.sti-innsbruck.at
1. Motivation
• Dieter Fensel hat einen Wikipedia Eintrag
4
www.sti-innsbruck.at
1. Motivation
• Italienischer Schwimmer VS. @cyberandy
• Wie hat er das gemacht?
5
www.sti-innsbruck.at
1. Motivation
• Schema.org annotation
• Hotellerie und Tourismus
 werden Annotationen verwendet?
6
www.sti-innsbruck.at
1. Motivation
1) Wie viele Hotels verwenden schema.org?
2) Wie wird schema.org verwendet?
1) Welche Klassen?
2) Welche Attribute?
3) Wird schema.org richtig eingesetzt?
3) Wer verwendet schema.org im touristischen Bereich?
7
www.sti-innsbruck.at
2. Daten
Was ist schema.org?
• Initiative geründet 2011
• Ontologie zur Strukturierung von Daten auf Webseiten
• In HTML eingebunden
– Microdata
– RDFa
– JSON-LD
Source: http://www.schema.org
8
www.sti-innsbruck.at
2. Daten
Analyse aller Webseiten:
• Gegründet 2007
• Non-Profit Organisation
• Erfasst (crawlt) Internet 4 mal pro Jahr
• Datensätze frei zugänglich
• November 2013: 2,3 Milliarden Webseiten, 148TB
• Dezember 2014: 2,1 Milliarden Webseiten, 160TB
Source: http://commoncrawl.org/the-data/get-started/
9
www.sti-innsbruck.at
2. Daten
Reduktion auf Strukturierte Daten:
WebDataCommons:
• 2012 Freie Universität Berlin & KIT
• Derzeit Uni Mannheim
• Leitung: Chris Bizer
• Extrahieren aller strukturierter Daten aus Common Crawl
– Web Tabellen: 147 Mio. relationale Tab. (11 Mrd. HTML Tab.)
– Hyperlink Graph: 3,5 Mrd. Webseiten, 128 Mrd. Links
– Semantisch annotierte Daten:
• November 2013: 44TB, 2.2 Mrd. URLs
• Dezember 2014: 160TB, 2 Mrd. URLs
Source: http://webdatacommons.org/structureddata/
10
www.sti-innsbruck.at
2. Daten
• November 2013 Datensatz
• Subset: schema.org/Hotel
– 35GB
– 127 Mio. Triples
• OWLIM-SE Repository
• SPARQL Anfragen
• Linux Debian 3.2, STI
11
www.sti-innsbruck.at
3. Analyse
1) Wie viele Hotels sind schema.org annotiert?
4.841.353
• Hotels doppelt annotiert
– Eigene Webseite
– Buchungs Webseite
740.298
• Alle Hotels mit gleichem Namen verloren
– Adler, Post, ...
 An Adresse binden!
12
www.sti-innsbruck.at
3. Analyse
Hotel
4.841.353
Adresse
3.035.000
Land
1.904.000
Name
1.125.000
Region
1.902.000
PLZ
2.011.000
Straße
2.284.000
13
www.sti-innsbruck.at
3. Analyse
Hotels pro Land
Österreich: 148
Tirol: 287
Innsbruck: 63
1.US 1021513
2.CA 52360
3.CN 20648
4.GB 11580
5.DE 3163
6.MX 1921
7.PR 1250
8.AR 1016
9.PH 765
10.IN 699
11.TR 681
12.AE 391
13.KR 377
14.RO 373
15.QA 343
16.PA 299
17.SA 292
18.AU 290
19.BR 258
20.CH 238
21.TH 234
22.SR 217
23.HK 156
24.EC 150
25.AT 148
26.CO 143
27.PE 129
28.BE 127
29.ID 109
30.BH 93
 Offensichtlich nicht korrekt annotiert
14
www.sti-innsbruck.at
3. Analyse
Hotels nach Postleitzahlen in Tirol
18%
10%
8%
4%
4%
3%
2%2%2%2%
45%
6020 6370 6100 6450 6580 6456 6215 6213 6365 6010 Andere
Innsbruck
Kitzbühel
Seefeld
Sölden
St. Anton
Obergurgl
Achenkirch
Pertisau
Kirchberg
15
www.sti-innsbruck.at
3. Analyse
Welche Kategorien von Hotels sind annotiert?
http://schema.org/Rating
16
www.sti-innsbruck.at
3. Analyse
Hotel
4.841.353
Adresse
3.035.000
Land
1.904.000
Name
1.125.000
Region
1.902.000
PLZ
2.011.000
Straße
2.284.000
17
www.sti-innsbruck.at
3. Analyse
Hotel
4.841.353
Adress
3.035.00
Land
1.904.000
Name
1.125.000
Region
1.902.000
Rating
2.377.000
RatingValue
2.375.000
18
www.sti-innsbruck.at
3. Analyse
Welche Kategorien von Hotels sind annotiert?
866.932
651.606
426.925
176.800
135.958
35.079
66.208
15.476
941
19
www.sti-innsbruck.at
3. Analyse
2) Wie wird schema.org verwendet?
15%
14%
13%
9%
8%
7%
7%
5%
5%
4%
13%
schema.org Verwendung
http://schema.org/Hotel/name http://schema.org/Hotel/review
http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://schema.org/Hotel/image
http://schema.org/Hotel/address http://schema.org/Hotel/aggregateRating
http://schema.org/Hotel/rating http://schema.org/Hotel/description
http://schema.org/Hotel/url http://schema.org/Hotel/geo
Other
20
www.sti-innsbruck.at
3. Analyse
3) Wer verwendet schema.org im touristischen Bereich
Hypothese:
„Schema.org wird überwiegend von Booking- und
Ratingseiten verwendet, kaum auf Hotelseiten direkt.“
21
www.sti-innsbruck.at
3. Analyse
Ansatz:
• Hotels auf Booking- & Ratingseiten
suche nach annotation auf eigener Webseite
• Gegenprobe mit annotierten Hotelswebseiten
Mehrfache Vorkommen im Datensatz?
Dezeit: exemplarisch (Top-Buchungsseiten)
Nächster Schritt: vollständiger Datensatz
22
www.sti-innsbruck.at
3. Analyse
Resymee:
• Hauptanwender von schema.org/Hotel:
Buchungs- und Ratingseiten
Fehler:
Unvollständig
Falsche Klassen
Falsche Attribute
Falsche Datentypen
Vollständige Fehleranalyse: Uni Mannheim
(R. Meusel & H. Paulheim) [1]
[1] http://dws.informatik.uni-mannheim.de/fileadmin/lehrstuehle/ki/pub/MeuselPaulheim-HeuristicsForFixingCommonErrorsInDeployedSchemaOrgMicrodata-ESWC2015.pdf
23
www.sti-innsbruck.at
3. Analyse
www.sti-innsbruck.at
3. Analyse
Annotation „Hotel“ richtig  aber auf JEDER Unterseite!
www.sti-innsbruck.at
3. Analyse
Schema.org verwenden, richtig annotieren:
• RFDa, Microdata, JSON-LD
• Dokumentation: http://www.schema.org
• Testen: https://developers.google.com/structured-data/testing-tool/
„Be part of the graph!“
Google, Bing, Yahoo! & Yandex
26

Mais conteúdo relacionado

Destaque (11)

NNIP_Versicherungsnachrichten_032016
NNIP_Versicherungsnachrichten_032016NNIP_Versicherungsnachrichten_032016
NNIP_Versicherungsnachrichten_032016
 
Kundenmagnet Content Marketing
Kundenmagnet Content MarketingKundenmagnet Content Marketing
Kundenmagnet Content Marketing
 
Gost 19980 74
 Gost 19980 74 Gost 19980 74
Gost 19980 74
 
Praesentation Uni Insbruck
Praesentation Uni InsbruckPraesentation Uni Insbruck
Praesentation Uni Insbruck
 
Freundschaft und Facebook
Freundschaft und FacebookFreundschaft und Facebook
Freundschaft und Facebook
 
Kreatives Kommunikationsleistungs-Portfolio der Agentur Leven
Kreatives Kommunikationsleistungs-Portfolio der Agentur LevenKreatives Kommunikationsleistungs-Portfolio der Agentur Leven
Kreatives Kommunikationsleistungs-Portfolio der Agentur Leven
 
Eberhard Holstein: Crashkurs Strommarkt und Energiehandel
Eberhard Holstein: Crashkurs Strommarkt und EnergiehandelEberhard Holstein: Crashkurs Strommarkt und Energiehandel
Eberhard Holstein: Crashkurs Strommarkt und Energiehandel
 
Sonntag
SonntagSonntag
Sonntag
 
Gewässer pdf
Gewässer pdfGewässer pdf
Gewässer pdf
 
KIMBERLEY BEVAN_SS16 BENCH PORTFOLIO EXAMPLES
KIMBERLEY BEVAN_SS16 BENCH PORTFOLIO EXAMPLESKIMBERLEY BEVAN_SS16 BENCH PORTFOLIO EXAMPLES
KIMBERLEY BEVAN_SS16 BENCH PORTFOLIO EXAMPLES
 
Organische photovoltaik (c)2015 h.becker
Organische photovoltaik (c)2015 h.beckerOrganische photovoltaik (c)2015 h.becker
Organische photovoltaik (c)2015 h.becker
 

Schema.org auf Hotelwebseiten