SlideShare uma empresa Scribd logo
1 de 36
Semantik auf Knopfdruck?
Qualität von CMS-generierten semantischen
Daten

Hannes Mühleisen, AG NBI / WBSG




Xinnovations 2012
Fahrplan




   2
Fahrplan

• Eingebette strukturierte Daten auf
  Webseiten




                   2
Fahrplan

• Eingebette strukturierte Daten auf
  Webseiten

• Daten in Content-Management-
  Systemen




                   2
Fahrplan

• Eingebette strukturierte Daten auf
  Webseiten

• Daten in Content-Management-
  Systemen

• Resultate einer Analyse strukturierter
  Daten im Web


                   2
Eine typische
              Webseite...



My name is Horst Mustermann, here is my home page:
<a href="http://www.horst.example">
www.horst.example</a>. I live in Berlin, where I
work as a Researcher at Freie Universität Berlin.


                         3
... mit impliziten
     Informationen
          Name     Webseite
Person




    Ort    Titel   Organisation


             4
Lösung: zusätzliche
          Tags

• Populäre Vokabulare
 • schema.org, Open Graph
   protocol, ...

• Unterschiedliche Formate
 • μFormats, RDFa, Microdata

                    5
Beispiel: Microdata +
               schema.org
<div itemscope itemtype="http://data-
vocabulary.org/Person">
 My name is <span itemprop="name">Horst
 Mustermann</span>, here is my homepage:
 <a href="http://www.horst.example"
 itemprop="url">www.horst.example</a>.
 I live in
 <span itemprop="address" itemscope
 itemtype="http://data-vocabulary.org/Address">
   <span itemprop="locality">Berlin</span>
 </span>
 where I work as a <span
 itemprop="title">Researcher</span> at <span
 itemprop="affiliation">Freie Universität Berlin
 </span>.
</div>
                         6
Beispiel: Microdata +
          schema.orgStrukturierte
                                 Daten!


Item
  Type = http://data-vocabulary.org/person
  name = Horst Mustermann
  title = Researcher
  affiliation = Freie Universität Berlin
  url
     text = www.horst.example
     href = http://www.horst.example/
  address = Item
     Type = http://data-vocabulary.org/address
     locality = Berlin
                         7
Content-Management-
        Systeme

• ~ 30 % der
   Top-1Mio-Webseiten
   benutzen CMS-
   Software

• Wordpress...

Quelle: http://w3techs.com/technologies/overview/content_management/all


                                  8
Datenmodelle von CMS

• Generisch: Seite, Objekt, Feld, Datum
 • Drupal, Typo3, ...
• Blog: Artikel, Kommentare
 • Wordpress, ...
• Shop: Produkte, Bewertungen
 • osCommerce, ...
                    9
Semantik auf
                Knopfdruck?
 Semantik          Typen                 z.B.

                Spezialisierte
   Inhalt          CMS /              Produkte
                  Manuell                          Qualität
 Metadaten        Alle CMS              Autor

Seitenstruktu
                  Alle CMS            Navigation
      r


                                 10
Beispiel: Drupal




       11
Beispiel: Drupal




Datenmodell frei, Semantik der Felder aber unklar
                        11
Beispiel: Wordpress




         12
Beispiel: Wordpress
Titel
               URL
                          Blogartikel




                          Datum
        Text (!)


                     12
Beispiel: Wordpress
Titel
               URL
                                   Blogartikel




                                  Datum
        Text (!)

    Weitere Daten nicht strukturiert vorhanden!
                     12
Beispiel: Magento




        13
Beispiel: Magento




Daten strukturiert, Publikation “auf Knopfdruck”?
                        13
• Common-Crawl Datensatz, ~1 % “des
  Web”




                14
• Common-Crawl Datensatz, ~1 % “des
  Web”

• Verfügbare Daten
 • Index 02-12: 1.7 Mrd. URLs (21 TB)
 • Index 09/12: 2.8 Mrd. URLs (29 TB)


                 14
• Common-Crawl Datensatz, ~1 % “des
  Web”

• Verfügbare Daten
 • Index 02-12: 1.7 Mrd. URLs (21 TB)
 • Index 09/12: 2.8 Mrd. URLs (29 TB)
• Alle strukturierten Daten wurden
  extrahiert und nach RDF konvertiert

                  14
Analyse - Formate

• URLs mit
  strukturierten Daten:                                                                                    2009/2010




                                                4
  +6%
                                                                                                           02−2012




                           Percentage of URLs

                                                3
                                                2
                                                1
                                                0
                                                    RDFa   Microdata   geo   hcalendar   hcard   hreview     XFN

                                                                              Format




                          15
Analyse - Formate

• URLs mit
  strukturierten Daten:                                                                                    2009/2010




                                                4
  +6%
                                                                                                           02−2012




                           Percentage of URLs

                                                3
• Microdata +14%
                                                2
                                                1
  (schema.org?)
                                                0
                                                    RDFa   Microdata   geo   hcalendar   hcard   hreview     XFN

                                                                              Format




                          15
Analyse - Formate

• URLs mit
    strukturierten Daten:                                                                                    2009/2010




                                                  4
    +6%
                                                                                                             02−2012




                             Percentage of URLs

                                                  3
• Microdata +14%
                                                  2
                                                  1
    (schema.org?)
                                                  0

•
                                                      RDFa   Microdata   geo   hcalendar   hcard   hreview     XFN


    RDFa +26%                                                                   Format



    (Facebook?)


                            15
Analyse - Datenarten
                                                                   Microdata 02/2012
                                                                   RDFa 02/2012

                     5e+06
                                                                   RDFa 2009/2010
                                                                   Microdata 2009/2010
Entity Count (log)

                     5e+05
                     5e+04
                     5e+03




                             0          50       100         150                  200

                                                Type




                                   Webseiten-Struktur                    23 %
                                 Produkte & Bewertungen                  19 %
                                 Medien (Filme, Musik,...)               15 %
                                      Personen &                         15 %
                                     Organisationen      2012-Microdata
                                                  16
Detailgrad (Beispiele)

               Durchsch
   Typ            n.                Populäre Properties
               Propertie
                   s            name, description, image, price,
  Product         6.9             priceCurrency, availability

                                name, url, image, foundingDate,
Organization      7.9            addressLocality, postalCode,
                                       addressRegion
               Stichprobe, ca. ~6 Mio Tripel, Datensatz 2012-Microdata
                               17
Datenqualität (Beispiel)
Item
  Type = http://schema.org/Product
  name = Werkzeug AKKU für Makita Werkzeuge
     7,2V 2100 mAh Ni-MH 4071D 4073D
  description = Ersatz für folgende Modelle:
     MAKITA 3000 Serie MAKITA 3000DW,[...]
  availability = http://schema.org/InStock
  price = 27,90
  priceCurrency = EUR




                          18
Datenqualität (Beispiel)
Item
  Type = http://schema.org/Product
  name = Werkzeug AKKU für Makita Werkzeuge
     7,2V 2100 mAh Ni-MH 4071D 4073D
  description = Ersatz für folgende Modelle:
     MAKITA 3000 Serie MAKITA 3000DW,[...]
  availability = http://schema.org/InStock
  price = 27,90
  priceCurrency = EUR


Item
  Type = http://schema.org/Product
  description = Isolierte Gefahrstoff-
  Container zur sicheren, frostfreien
  Lagerung von Gefahrstoffen. [...]


                          18
Datenqualität (Beispiel)
Item
  Type = http://schema.org/Product
  name = Werkzeug AKKU für Makita Werkzeuge
     7,2V 2100 mAh Ni-MH 4071D 4073D
  description = Ersatz für folgende Modelle:   Super!
     MAKITA 3000 Serie MAKITA 3000DW,[...]
  availability = http://schema.org/InStock
  price = 27,90
  priceCurrency = EUR


Item
  Type = http://schema.org/Product
  description = Isolierte Gefahrstoff-    Nicht so
  Container zur sicheren, frostfreien
  Lagerung von Gefahrstoffen. [...]       super

                          18
Zusammenfassung




       19
Zusammenfassung
• Spezialisierte CMS bieten ideale
  Voraussetzungen für die Publikation
  strukturierter Daten (“Knopfdruck”)




                   19
Zusammenfassung
• Spezialisierte CMS bieten ideale
  Voraussetzungen für die Publikation
  strukturierter Daten (“Knopfdruck”)

• Strukturierte Daten aus CM-Systemen
  eingebettet in HTML-Seiten weit
  verbreitet




                   19
Zusammenfassung
• Spezialisierte CMS bieten ideale
  Voraussetzungen für die Publikation
  strukturierter Daten (“Knopfdruck”)

• Strukturierte Daten aus CM-Systemen
  eingebettet in HTML-Seiten weit
  verbreitet

• Bisher begrenzter Nutzungsbereich
                   19
Vielen Dank für Ihre
 Aufmerksamkeit!
              Fragen?



        Twitter: @hfmuehleisen
   Web: http://webdatacommons.org
    http://hannes.muehleisen.org

Mais conteúdo relacionado

Destaque

Pitch isterre bis (1)
Pitch isterre bis (1)Pitch isterre bis (1)
Pitch isterre bis (1)SMARTHUB
 
Mumenthaler innovationsmanagement
Mumenthaler innovationsmanagementMumenthaler innovationsmanagement
Mumenthaler innovationsmanagementRudolf Mumenthaler
 
Manejo equipos laboratorio-conociendo equipos
Manejo equipos laboratorio-conociendo equiposManejo equipos laboratorio-conociendo equipos
Manejo equipos laboratorio-conociendo equiposSENA
 
Film lesen: Strobl am Wolfgangsee 3.12.2010
Film lesen: Strobl am Wolfgangsee 3.12.2010Film lesen: Strobl am Wolfgangsee 3.12.2010
Film lesen: Strobl am Wolfgangsee 3.12.2010joness6
 
Proyecto facebook y la Postuniversidad
Proyecto facebook y la PostuniversidadProyecto facebook y la Postuniversidad
Proyecto facebook y la PostuniversidadFelipe Pineda
 
X-Zelit UK farm experiences GERMAN
X-Zelit UK farm experiences GERMANX-Zelit UK farm experiences GERMAN
X-Zelit UK farm experiences GERMANVilofoss
 
Swiss Hockey League
Swiss Hockey LeagueSwiss Hockey League
Swiss Hockey Leaguedewinterm
 
E-Book-Reader für Studium und Lehre
E-Book-Reader für Studium und LehreE-Book-Reader für Studium und Lehre
E-Book-Reader für Studium und LehreRudolf Mumenthaler
 
TRABAJOS RUTAS LITERARIAS
TRABAJOS RUTAS LITERARIASTRABAJOS RUTAS LITERARIAS
TRABAJOS RUTAS LITERARIASceipsangil
 
Graficos estadisticos, blog
Graficos estadisticos, blogGraficos estadisticos, blog
Graficos estadisticos, blogErikalrd
 

Destaque (19)

Director de Estimaciones
Director de EstimacionesDirector de Estimaciones
Director de Estimaciones
 
Pitch isterre bis (1)
Pitch isterre bis (1)Pitch isterre bis (1)
Pitch isterre bis (1)
 
20101202 socialmediamarketing v1
20101202 socialmediamarketing v120101202 socialmediamarketing v1
20101202 socialmediamarketing v1
 
Mumenthaler innovationsmanagement
Mumenthaler innovationsmanagementMumenthaler innovationsmanagement
Mumenthaler innovationsmanagement
 
Manejo equipos laboratorio-conociendo equipos
Manejo equipos laboratorio-conociendo equiposManejo equipos laboratorio-conociendo equipos
Manejo equipos laboratorio-conociendo equipos
 
Film lesen: Strobl am Wolfgangsee 3.12.2010
Film lesen: Strobl am Wolfgangsee 3.12.2010Film lesen: Strobl am Wolfgangsee 3.12.2010
Film lesen: Strobl am Wolfgangsee 3.12.2010
 
Proyecto facebook y la Postuniversidad
Proyecto facebook y la PostuniversidadProyecto facebook y la Postuniversidad
Proyecto facebook y la Postuniversidad
 
X-Zelit UK farm experiences GERMAN
X-Zelit UK farm experiences GERMANX-Zelit UK farm experiences GERMAN
X-Zelit UK farm experiences GERMAN
 
Senior Sem Ppt
Senior Sem PptSenior Sem Ppt
Senior Sem Ppt
 
Swiss Hockey League
Swiss Hockey LeagueSwiss Hockey League
Swiss Hockey League
 
Bekanntschaft
BekanntschaftBekanntschaft
Bekanntschaft
 
Aufgabe der performanz
Aufgabe der performanzAufgabe der performanz
Aufgabe der performanz
 
Presidencia de Pedro Eugenio Aramburu
Presidencia de Pedro Eugenio AramburuPresidencia de Pedro Eugenio Aramburu
Presidencia de Pedro Eugenio Aramburu
 
E-Book-Reader für Studium und Lehre
E-Book-Reader für Studium und LehreE-Book-Reader für Studium und Lehre
E-Book-Reader für Studium und Lehre
 
VW Financial Services AG Jahresabschluss 2009
VW Financial Services AG Jahresabschluss 2009VW Financial Services AG Jahresabschluss 2009
VW Financial Services AG Jahresabschluss 2009
 
TRABAJOS RUTAS LITERARIAS
TRABAJOS RUTAS LITERARIASTRABAJOS RUTAS LITERARIAS
TRABAJOS RUTAS LITERARIAS
 
Die großen 3-Leitmotive
Die großen 3-LeitmotiveDie großen 3-Leitmotive
Die großen 3-Leitmotive
 
Graficos estadisticos, blog
Graficos estadisticos, blogGraficos estadisticos, blog
Graficos estadisticos, blog
 
Broschüre 200-01
Broschüre 200-01Broschüre 200-01
Broschüre 200-01
 

Semelhante a Semantik auf Knopfdruck - Qualität von CMS-generierten semantischen Daten

Sitzung 11
Sitzung 11Sitzung 11
Sitzung 11scuy
 
Publishing in the digital age 1 december 2011 - semantic meetup zürich
Publishing in the digital age   1 december 2011 - semantic meetup zürichPublishing in the digital age   1 december 2011 - semantic meetup zürich
Publishing in the digital age 1 december 2011 - semantic meetup zürichAI4BD GmbH
 
Bdk fachforum (gpec) big data und intelligente datenanalyse
Bdk fachforum (gpec)   big data und intelligente datenanalyseBdk fachforum (gpec)   big data und intelligente datenanalyse
Bdk fachforum (gpec) big data und intelligente datenanalyseAI4BD GmbH
 
OPAL - Open Data Portal Germany
OPAL - Open Data Portal GermanyOPAL - Open Data Portal Germany
OPAL - Open Data Portal Germanyadrianwilke
 
Collaboration Days 2011 - Document Management à la carte
Collaboration Days 2011 - Document Management à la carteCollaboration Days 2011 - Document Management à la carte
Collaboration Days 2011 - Document Management à la carteDavid Schneider
 
Semantic technologies
Semantic technologiesSemantic technologies
Semantic technologiesuniverse543
 
Data Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtData Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtIBsolution GmbH
 
16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und Repositorien16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und RepositorienPascal-Nicolas Becker
 
Inhalte strukturieren für bessere User Experience und Maschinenlesbarkeit
Inhalte strukturieren für bessere User Experience und MaschinenlesbarkeitInhalte strukturieren für bessere User Experience und Maschinenlesbarkeit
Inhalte strukturieren für bessere User Experience und Maschinenlesbarkeit1&1
 
Linked Data Switzerland WorkShop october 8, 2015, hes so wallis
Linked Data Switzerland WorkShop october 8, 2015, hes so wallisLinked Data Switzerland WorkShop october 8, 2015, hes so wallis
Linked Data Switzerland WorkShop october 8, 2015, hes so wallisAI4BD GmbH
 
RDBMS oder NoSQL – warum nicht beides?
RDBMS oder NoSQL – warum nicht beides?RDBMS oder NoSQL – warum nicht beides?
RDBMS oder NoSQL – warum nicht beides?Capgemini
 
Drupal Austria Roadshow in Klagenfurt
Drupal Austria Roadshow in KlagenfurtDrupal Austria Roadshow in Klagenfurt
Drupal Austria Roadshow in Klagenfurtdasjo
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data KonnektivitätTrivadis
 
SharePoint 2016 das fliegen lernen - SQL Server Performance Optimierung
SharePoint 2016 das fliegen lernen - SQL Server Performance OptimierungSharePoint 2016 das fliegen lernen - SQL Server Performance Optimierung
SharePoint 2016 das fliegen lernen - SQL Server Performance OptimierungLars Platzdasch
 
LinkedGeodata (Deutsch)
LinkedGeodata (Deutsch)LinkedGeodata (Deutsch)
LinkedGeodata (Deutsch)geoknow
 
1114 sasaki-metadata
1114 sasaki-metadata1114 sasaki-metadata
1114 sasaki-metadataFelix Sasaki
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Georg Rehm
 
XML Director - the technical foundation of onkopedia.com
XML Director - the technical foundation of onkopedia.comXML Director - the technical foundation of onkopedia.com
XML Director - the technical foundation of onkopedia.comAndreas Jung
 
SEMrush Übersicht von allen Tools Stand 03.2019
SEMrush Übersicht von allen Tools  Stand 03.2019SEMrush Übersicht von allen Tools  Stand 03.2019
SEMrush Übersicht von allen Tools Stand 03.2019Evgeni Sereda
 

Semelhante a Semantik auf Knopfdruck - Qualität von CMS-generierten semantischen Daten (20)

Sitzung 11
Sitzung 11Sitzung 11
Sitzung 11
 
Publishing in the digital age 1 december 2011 - semantic meetup zürich
Publishing in the digital age   1 december 2011 - semantic meetup zürichPublishing in the digital age   1 december 2011 - semantic meetup zürich
Publishing in the digital age 1 december 2011 - semantic meetup zürich
 
Bdk fachforum (gpec) big data und intelligente datenanalyse
Bdk fachforum (gpec)   big data und intelligente datenanalyseBdk fachforum (gpec)   big data und intelligente datenanalyse
Bdk fachforum (gpec) big data und intelligente datenanalyse
 
#PinkDB DataVault
#PinkDB DataVault#PinkDB DataVault
#PinkDB DataVault
 
OPAL - Open Data Portal Germany
OPAL - Open Data Portal GermanyOPAL - Open Data Portal Germany
OPAL - Open Data Portal Germany
 
Collaboration Days 2011 - Document Management à la carte
Collaboration Days 2011 - Document Management à la carteCollaboration Days 2011 - Document Management à la carte
Collaboration Days 2011 - Document Management à la carte
 
Semantic technologies
Semantic technologiesSemantic technologies
Semantic technologies
 
Data Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedachtData Mesh: "Daten als Produkt" weitergedacht
Data Mesh: "Daten als Produkt" weitergedacht
 
16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und Repositorien16. DINI-Jahrestagung: Linked Data und Repositorien
16. DINI-Jahrestagung: Linked Data und Repositorien
 
Inhalte strukturieren für bessere User Experience und Maschinenlesbarkeit
Inhalte strukturieren für bessere User Experience und MaschinenlesbarkeitInhalte strukturieren für bessere User Experience und Maschinenlesbarkeit
Inhalte strukturieren für bessere User Experience und Maschinenlesbarkeit
 
Linked Data Switzerland WorkShop october 8, 2015, hes so wallis
Linked Data Switzerland WorkShop october 8, 2015, hes so wallisLinked Data Switzerland WorkShop october 8, 2015, hes so wallis
Linked Data Switzerland WorkShop october 8, 2015, hes so wallis
 
RDBMS oder NoSQL – warum nicht beides?
RDBMS oder NoSQL – warum nicht beides?RDBMS oder NoSQL – warum nicht beides?
RDBMS oder NoSQL – warum nicht beides?
 
Drupal Austria Roadshow in Klagenfurt
Drupal Austria Roadshow in KlagenfurtDrupal Austria Roadshow in Klagenfurt
Drupal Austria Roadshow in Klagenfurt
 
Big Data Konnektivität
Big Data KonnektivitätBig Data Konnektivität
Big Data Konnektivität
 
SharePoint 2016 das fliegen lernen - SQL Server Performance Optimierung
SharePoint 2016 das fliegen lernen - SQL Server Performance OptimierungSharePoint 2016 das fliegen lernen - SQL Server Performance Optimierung
SharePoint 2016 das fliegen lernen - SQL Server Performance Optimierung
 
LinkedGeodata (Deutsch)
LinkedGeodata (Deutsch)LinkedGeodata (Deutsch)
LinkedGeodata (Deutsch)
 
1114 sasaki-metadata
1114 sasaki-metadata1114 sasaki-metadata
1114 sasaki-metadata
 
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
Transformieren, Manipulieren, Kuratieren: Technologien für die Wissensarbeit ...
 
XML Director - the technical foundation of onkopedia.com
XML Director - the technical foundation of onkopedia.comXML Director - the technical foundation of onkopedia.com
XML Director - the technical foundation of onkopedia.com
 
SEMrush Übersicht von allen Tools Stand 03.2019
SEMrush Übersicht von allen Tools  Stand 03.2019SEMrush Übersicht von allen Tools  Stand 03.2019
SEMrush Übersicht von allen Tools Stand 03.2019
 

Semantik auf Knopfdruck - Qualität von CMS-generierten semantischen Daten

  • 1. Semantik auf Knopfdruck? Qualität von CMS-generierten semantischen Daten Hannes Mühleisen, AG NBI / WBSG Xinnovations 2012
  • 4. Fahrplan • Eingebette strukturierte Daten auf Webseiten • Daten in Content-Management- Systemen 2
  • 5. Fahrplan • Eingebette strukturierte Daten auf Webseiten • Daten in Content-Management- Systemen • Resultate einer Analyse strukturierter Daten im Web 2
  • 6. Eine typische Webseite... My name is Horst Mustermann, here is my home page: <a href="http://www.horst.example"> www.horst.example</a>. I live in Berlin, where I work as a Researcher at Freie Universität Berlin. 3
  • 7. ... mit impliziten Informationen Name Webseite Person Ort Titel Organisation 4
  • 8. Lösung: zusätzliche Tags • Populäre Vokabulare • schema.org, Open Graph protocol, ... • Unterschiedliche Formate • μFormats, RDFa, Microdata 5
  • 9. Beispiel: Microdata + schema.org <div itemscope itemtype="http://data- vocabulary.org/Person"> My name is <span itemprop="name">Horst Mustermann</span>, here is my homepage: <a href="http://www.horst.example" itemprop="url">www.horst.example</a>. I live in <span itemprop="address" itemscope itemtype="http://data-vocabulary.org/Address"> <span itemprop="locality">Berlin</span> </span> where I work as a <span itemprop="title">Researcher</span> at <span itemprop="affiliation">Freie Universität Berlin </span>. </div> 6
  • 10. Beispiel: Microdata + schema.orgStrukturierte Daten! Item Type = http://data-vocabulary.org/person name = Horst Mustermann title = Researcher affiliation = Freie Universität Berlin url text = www.horst.example href = http://www.horst.example/ address = Item Type = http://data-vocabulary.org/address locality = Berlin 7
  • 11. Content-Management- Systeme • ~ 30 % der Top-1Mio-Webseiten benutzen CMS- Software • Wordpress... Quelle: http://w3techs.com/technologies/overview/content_management/all 8
  • 12. Datenmodelle von CMS • Generisch: Seite, Objekt, Feld, Datum • Drupal, Typo3, ... • Blog: Artikel, Kommentare • Wordpress, ... • Shop: Produkte, Bewertungen • osCommerce, ... 9
  • 13. Semantik auf Knopfdruck? Semantik Typen z.B. Spezialisierte Inhalt CMS / Produkte Manuell Qualität Metadaten Alle CMS Autor Seitenstruktu Alle CMS Navigation r 10
  • 15. Beispiel: Drupal Datenmodell frei, Semantik der Felder aber unklar 11
  • 17. Beispiel: Wordpress Titel URL Blogartikel Datum Text (!) 12
  • 18. Beispiel: Wordpress Titel URL Blogartikel Datum Text (!) Weitere Daten nicht strukturiert vorhanden! 12
  • 20. Beispiel: Magento Daten strukturiert, Publikation “auf Knopfdruck”? 13
  • 21. • Common-Crawl Datensatz, ~1 % “des Web” 14
  • 22. • Common-Crawl Datensatz, ~1 % “des Web” • Verfügbare Daten • Index 02-12: 1.7 Mrd. URLs (21 TB) • Index 09/12: 2.8 Mrd. URLs (29 TB) 14
  • 23. • Common-Crawl Datensatz, ~1 % “des Web” • Verfügbare Daten • Index 02-12: 1.7 Mrd. URLs (21 TB) • Index 09/12: 2.8 Mrd. URLs (29 TB) • Alle strukturierten Daten wurden extrahiert und nach RDF konvertiert 14
  • 24. Analyse - Formate • URLs mit strukturierten Daten: 2009/2010 4 +6% 02−2012 Percentage of URLs 3 2 1 0 RDFa Microdata geo hcalendar hcard hreview XFN Format 15
  • 25. Analyse - Formate • URLs mit strukturierten Daten: 2009/2010 4 +6% 02−2012 Percentage of URLs 3 • Microdata +14% 2 1 (schema.org?) 0 RDFa Microdata geo hcalendar hcard hreview XFN Format 15
  • 26. Analyse - Formate • URLs mit strukturierten Daten: 2009/2010 4 +6% 02−2012 Percentage of URLs 3 • Microdata +14% 2 1 (schema.org?) 0 • RDFa Microdata geo hcalendar hcard hreview XFN RDFa +26% Format (Facebook?) 15
  • 27. Analyse - Datenarten Microdata 02/2012 RDFa 02/2012 5e+06 RDFa 2009/2010 Microdata 2009/2010 Entity Count (log) 5e+05 5e+04 5e+03 0 50 100 150 200 Type Webseiten-Struktur 23 % Produkte & Bewertungen 19 % Medien (Filme, Musik,...) 15 % Personen & 15 % Organisationen 2012-Microdata 16
  • 28. Detailgrad (Beispiele) Durchsch Typ n. Populäre Properties Propertie s name, description, image, price, Product 6.9 priceCurrency, availability name, url, image, foundingDate, Organization 7.9 addressLocality, postalCode, addressRegion Stichprobe, ca. ~6 Mio Tripel, Datensatz 2012-Microdata 17
  • 29. Datenqualität (Beispiel) Item Type = http://schema.org/Product name = Werkzeug AKKU für Makita Werkzeuge 7,2V 2100 mAh Ni-MH 4071D 4073D description = Ersatz für folgende Modelle: MAKITA 3000 Serie MAKITA 3000DW,[...] availability = http://schema.org/InStock price = 27,90 priceCurrency = EUR 18
  • 30. Datenqualität (Beispiel) Item Type = http://schema.org/Product name = Werkzeug AKKU für Makita Werkzeuge 7,2V 2100 mAh Ni-MH 4071D 4073D description = Ersatz für folgende Modelle: MAKITA 3000 Serie MAKITA 3000DW,[...] availability = http://schema.org/InStock price = 27,90 priceCurrency = EUR Item Type = http://schema.org/Product description = Isolierte Gefahrstoff- Container zur sicheren, frostfreien Lagerung von Gefahrstoffen. [...] 18
  • 31. Datenqualität (Beispiel) Item Type = http://schema.org/Product name = Werkzeug AKKU für Makita Werkzeuge 7,2V 2100 mAh Ni-MH 4071D 4073D description = Ersatz für folgende Modelle: Super! MAKITA 3000 Serie MAKITA 3000DW,[...] availability = http://schema.org/InStock price = 27,90 priceCurrency = EUR Item Type = http://schema.org/Product description = Isolierte Gefahrstoff- Nicht so Container zur sicheren, frostfreien Lagerung von Gefahrstoffen. [...] super 18
  • 33. Zusammenfassung • Spezialisierte CMS bieten ideale Voraussetzungen für die Publikation strukturierter Daten (“Knopfdruck”) 19
  • 34. Zusammenfassung • Spezialisierte CMS bieten ideale Voraussetzungen für die Publikation strukturierter Daten (“Knopfdruck”) • Strukturierte Daten aus CM-Systemen eingebettet in HTML-Seiten weit verbreitet 19
  • 35. Zusammenfassung • Spezialisierte CMS bieten ideale Voraussetzungen für die Publikation strukturierter Daten (“Knopfdruck”) • Strukturierte Daten aus CM-Systemen eingebettet in HTML-Seiten weit verbreitet • Bisher begrenzter Nutzungsbereich 19
  • 36. Vielen Dank für Ihre Aufmerksamkeit! Fragen? Twitter: @hfmuehleisen Web: http://webdatacommons.org http://hannes.muehleisen.org

Notas do Editor

  1. \n
  2. \n
  3. \n
  4. \n
  5. \n
  6. \n
  7. \n
  8. \n
  9. \n
  10. \n
  11. \n
  12. \n
  13. \n
  14. \n
  15. \n
  16. \n
  17. \n
  18. \n
  19. \n
  20. First: Our UseCase is not suitable to Hadoop, so EMR is out, since it was too slow\nInput data split in 100 MB parts, yes\n- EC2 c1.xlarge instances: 8 CPUs, current spot price : ca. 0.17 EUR per hour (most of the time)\n- so, with 100 instances we get 800 CPUs and we could expect to do it in around three days for around 1000 EUR (BIG WIN!) and in 55 hours!\n\n\n
  21. First: Our UseCase is not suitable to Hadoop, so EMR is out, since it was too slow\nInput data split in 100 MB parts, yes\n- EC2 c1.xlarge instances: 8 CPUs, current spot price : ca. 0.17 EUR per hour (most of the time)\n- so, with 100 instances we get 800 CPUs and we could expect to do it in around three days for around 1000 EUR (BIG WIN!) and in 55 hours!\n\n\n
  22. First: Our UseCase is not suitable to Hadoop, so EMR is out, since it was too slow\nInput data split in 100 MB parts, yes\n- EC2 c1.xlarge instances: 8 CPUs, current spot price : ca. 0.17 EUR per hour (most of the time)\n- so, with 100 instances we get 800 CPUs and we could expect to do it in around three days for around 1000 EUR (BIG WIN!) and in 55 hours!\n\n\n
  23. First: Our UseCase is not suitable to Hadoop, so EMR is out, since it was too slow\nInput data split in 100 MB parts, yes\n- EC2 c1.xlarge instances: 8 CPUs, current spot price : ca. 0.17 EUR per hour (most of the time)\n- so, with 100 instances we get 800 CPUs and we could expect to do it in around three days for around 1000 EUR (BIG WIN!) and in 55 hours!\n\n\n
  24. \n
  25. \n
  26. \n
  27. \n
  28. \n
  29. \n
  30. \n