Metadaten zur Anreicherung von Inhalten ist möglich.
Prototypen Tools für Content Authors existieren.
Externe, offene Linked Data Datenquellen sind wichtiger Bestandteil der Anreicherung.
Angereicherte Inhalte können Basis für neue Anwendungen wie SEO sein.
Angereicherte Inhalte können selbst zur Datenquelle werden und neue Anwendungen wie (mehrsprachige) Q/A Services erlauben.
1. Tools, offene Daten, Vokabulare
und Anwendungsszenarien für
semi-automatische
Metadatengenerierung
Felix Sasaki
DFKI / W3C Fellow
Sasaki – Markupforum 2014
1
2. Überblick
• Metadaten: Was und warum?
• Demo zu neuen Metadaten:
Tooling für Inhaltsanreicherung
• Was fehlt für Content Authors?
• Was ist Linked Data? – Kurzeinführung ...
• Offene Datenquellen im Web
• Nächste Schritte
Sasaki – Markupforum 2014
2
3. Überblick
• Metadaten: Was und warum?
• Demo zu neuen Metadaten:
Tooling für Inhaltsanreicherung
• Was fehlt für Content Authors?
• Was ist Linked Data? – Kurzeinführung ...
• Offene Datenquellen im Web
• Nächste Schritte
Sasaki – Markupforum 2014
3
9. Metadaten – der nächste Schritt:
Vom Container in die Inhalte
Sasaki – Markupforum 2014
9
10. Überblick
• Metadaten: Was und warum?
• Demo zu neuen Metadaten:
Tooling für Inhaltsanreicherung
• Was fehlt für Content Authors?
• Was ist Linked Data? – Kurzeinführung ...
• Offene Datenquellen im Web
• Nächste Schritte
Sasaki – Markupforum 2014
10
11. Schritt 1: Automatische
Erkennung von Eigennamen
• <p>Welcome to Stuttgart.</p>
Output (als ITS 2.0 “Text Analysis” Markup)
Sasaki – Markupforum 2014
Input
• <p>Welcome to <span its-ta-ident-ref="
http://dbpedia.org/resource/Stuttgart"...>Stuttgart</span>!.</p>
11
12. Schritt 2: Anreicherung der Inhalte
durch Zugriff auf DBpedia via SPARQL
Nutzt DBpedia URIs aus Schritt 1.
Beispielabfrage, prüft ob Entität ein Ort (place) ist
• SELECT ?wikiURI ...
WHERE{ http://dbpedia.org/resource/Stuttgart
rdf:type <http://schema.org/Place>.... }
Sasaki – Markupforum 2014
12
13. Schritt 3: Generierung von Schema.org
Markup und Inhalten
• Teil 1: SPARQL Query Ausgabe und
• Teil 2: Dokument
• <p>Welcome to <span its-ta-ident-ref="
http://dbpedia.org/resource/Stuttgart"...>Stuttgart</span>!</p>
Output: Dokument mit Schema.org Markup
Sasaki – Markupforum 2014
Input
• <p>Welcome to
<span ... Itemscope=""
itemtype="http://schema.org/Place">
… Stuttgart</span>! Population: 600038</p>
13
14. Outputtest mit
„Structured Data Testing Tool“
http://www.google.com/webmasters/tools/richsnippets
Sasaki – Markupforum 2014
14
15. Überblick
• Metadaten: Was und warum?
• Demo zu neuen Metadaten:
Tooling für Inhaltsanreicherung
• Was fehlt für Content Authors?
• Was ist Linked Data? – Kurzeinführung ...
• Offene Datenquellen im Web
• Nächste Schritte
Sasaki – Markupforum 2014
15
16. 1) Tooling für Content Authors
• Beispiel oXygen Editor Modifikation
• Informationsquellen aus dem Web holen
– Autor muss Quellen und Abfragen auswählen
können
– Strukturgenerierung muss konfigurierbar sein
Sasaki – Markupforum 2014
16
17. 1) Tooling für Content Authors
• Abfrage von Datenquellen macht Inhalte
dynamisch – Inhalte werden intelligent und
„fragen die Datenquellen ab“
– Beispiel: Einwohnerzahl für Orte aus DBpedia
Sasaki – Markupforum 2014
17
18. 1) Tooling für Content Authors
• Abfrage von Datenquellen macht Inhalte
dynamisch – Inhalte werden intelligent und
„fragen die Datenquellen ab“
– Beispiel: Geburtsdatum für Personen aus DBpedia
Sasaki – Markupforum 2014
18
19. 2) Wissen um
Datenquellen und Technologien
• Technologien In a Nutshell
– RDF um Daten zu repräsentieren
– SPARQL zur Abfrage
– ITS 2.0 „Text Analysis“ um Identikatoren in Inhalten zu
Speichern > Link zur Linked Data Cloud
• Relevante Datenquellen
– Allgemein: DBpedia
– Speziell: Abhängig von der Domäne + dem Anwendungsfall
– (Potential): die eigenen, angereicherten Inhalte selbst
– Beispiel: Reiseführer über Stuttgart
Sasaki – Markupforum 2014
19
20. Überblick
• Metadaten: Was und warum?
• Demo zu neuen Metadaten:
Tooling für Inhaltsanreicherung
• Was fehlt für Content Authors?
• Was ist Linked Data? – Kurzeinführung ...
• Offene Datenquellen im Web
• Nächste Schritte
Sasaki – Markupforum 2014
20
21. WAS IST LINKED DATA?
KURZEINFÜHRUNG …
Sasaki – Markupforum 2014
21
22. Bausteine für das Web
<p>All content on this site is licensed under
<a
href="http://creativecommons.org/licenses/by/3.0/">
a Creative Commons License</a>. </p>
Sasaki – Markupforum 2014
22
23. Inhalt
<p>All content on this site is licensed under
<a
href="http://creativecommons.org/licenses/by/3.0/">
a Creative Commons License</a>. </p>
Sasaki – Markupforum 2014
23
24. Links (oder “Identifier”)
<p>All content on this site is licensed under
<a
href="http://creativecommons.org/licenses/by/3.0/">
a Creative Commons License</a>. </p>
Sasaki – Markupforum 2014
24
25. Einfach: “Finde alle Seiten mit Links zu
http://creativecommons.org/licenses/by/3.0/“
<p>All content on this site is licensed under
<a
href="http://creativecommons.org/licenses/by/3.0/">
a Creative Commons License</a>. </p>
Sasaki – Markupforum 2014
25
✔
26. Noch schwierig: “Finde alle Inhalte die unter
einer Creative Commons Lizenz stehen“
<p>All content on this site is licensed under
<a
href="http://creativecommons.org/licenses/by/3.0/">
a Creative Commons License</a>. </p>
Sasaki – Markupforum 2014
26
?
27. Linked Data =
maschinenlesbare Information im Web
<p>All content on this site is licensed under
<a property="http://creativecommons.org/ns#license"
href="http://creativecommons.org/licenses/by/3.0/">
a Creative Commons License</a>. </p>
Sasaki – Markupforum 2014
27
?
28. Linked Data =
maschinenlesbare Information im Web
Web der
Dokumente Web der Daten
Sasaki – Markupforum 2014
28
35. … auf der Basis von
Vokabularien
cc:license rdf:Type rdf:Property
Sasaki – Markupforum 2014
35
http://www.w3.org/Talks/2014/1114-sasaki-metadata/
http://creativecommons.org/licenses/by/3.0/
ex:Presentations
rdf:Type
RDF Schema
- Definition von Classes (example “Presentations”) und properties (like “cc:license”)
OWL (Web Ontology Language)
- Definition weiterer (logischer) Constraints für Vokabulare
SKOS
- Beschreibung von Thesauri, Taxonomien, Klassifikationen
36. Query - SPARQL
• Query Sprache für RDF
• Muster in Linkstrukturen
• Z.B. „Finde Präsentationen mit CC ... Lizenz“
Ergebnis:
http://www.w3.org/Talks/2014/1114-sasaki-metadata/
PREFIX cc: <http://creativecommons.org/ns#>
SELECT ?presentation WHERE {
?presentation cc:license <http://creativecommons.org/licenses/by/3.0/>.
}
Sasaki – Markupforum 2014
36
37. SPARQL Abfrage mit Dbpedia: „Personen die in
Stuttgart vor 1900 geboren wurden“:
http://tinyurl.com/dbpedia-bsp
Sasaki – Markupforum 2014
37
38. Q/A in Suchmaschinen heute
Sasaki – Markupforum 2014
38
Beispiel nach Noz Urbina, Präsentation bei „Soap!“ Konferenz, Oktober 2014
39. Potential: Q/A selbstgemacht
• Suche traditional
– Volltextindexierung, Linkgewichtung
• Metadaten heute
– Zugang zu Containern
• Metadaten morgen: Linked Data
– Neue Anwendungsszenarien, z.B.
Q/A selbst gemacht
Sasaki – Markupforum 2014
39
43. Potential: Buchauslieferung = Inhalte + Anreicherung +
Service Linked Data Abfrage über die Anreicherungen!
Sasaki – Markupforum 2014
43
Abfrage „Personen die in Stuttgart vor 1900 geboren wurden“
• Ergebnis ist anders als Abfrage gegenüber DBpedia
„Gustav Schwab“
• Buch als Linked Data Quelle in verschiedenen Sprachen zugänglich
• Linked Data Anreicherung + Anfragen: spezifisch für Markt
Reiseführer, Technische Dokumentation, ...
44. Überblick
• Metadaten: Was und warum?
• Demo zu neuen Metadaten:
Tooling für Inhaltsanreicherung
• Was fehlt für Content Authors?
• Was ist Linked Data? – Kurzeinführung ...
• Offene Datenquellen im Web
• Nächste Schritte
Sasaki – Markupforum 2014
44
46. Linked Data 2/3
Sasaki – Markupforum 2014
Linked Open Data Cloud
47. Linked Data 2/3
Umfasst DNB, Library of Congress Subject Headings, VIAF, ...
Sasaki – Markupforum 2014
Linked Open Data Cloud
48. Linked Data 3/3
Linguistic Linked Open Data Cloud
Sasaki – Markupforum 2014
49. Linked Open Data Clouds –
Datensätze und Themen
Linked Open Data Linguistic
Sasaki – Markupforum 2014
Linked Open Data
Öffentliche Daten 183 18.05%
Publikations(Meta)daten 96 9.47%
Medizin, Biologie 83 8.19%
User-generated Content 48 4.73%
Domänenübergreifend 41 4.04%
Multimedia 22 2.17%
Geoinformationen 21 2.07%
Soziales Web 520 51.28%
Total 1014
Lexika
Thesauri
Einzelsprachlich
Mehrsprachig
…
50. Überblick
• Metadaten: Was und warum?
• Demo zu neuen Metadaten:
Tooling für Inhaltsanreicherung
• Was fehlt für Content Authors?
• Was ist Linked Data? – Kurzeinführung ...
• Offene Datenquellen im Web
• Nächste Schritte
Sasaki – Markupforum 2014
50
51. Nächste Schritte
(und Herausforderungen)
• Datenquellen finden
– Zugangspunkt
http://datahub.io/dataset?tags=lod
• Datenqualität
• Vereinfachen: Linked Data erzeugen
– Z.B. CSV als Linked Data verarbeiten
• Linked Data Tooling zur Inhaltsanreicherung in
Authoring Prozesse einbauen
• Abfrage + Services für Endnutzer bereit stellen
Sasaki – Markupforum 2014
51
52. Einstieg/Loslegen
W3C LD4LT (Linked Data for Language Technology) Community
Group
• http://www.w3.org/community/ld4lt/
• https://www.w3.org/community/ld4lt/join
• https://www.w3.org/community/ld4lt/wiki/Lider_roadmapping_activities
• Teilnahme ist frei
LIDER: EU Projekt, November 2013 – Oktober 2015
• Basisplanung („Roadmap“) für eine umfangreiche „Linguistic Linked Data
Cloud“ und Anwendungen im Bereich Content Analytics zu schaffen
• Anwendungsszenarien und Anforderungen von … Ihnen
Sasaki – Markupforum 2014
53. Zusammenfassung
• Metadaten zur Anreicherung von Inhalten ist möglich
• Prototypen Tools für Content Authors existieren
• Externe, offene Linked Data Datenquellen wie DBpedia
sind wichtiger Bestandteil der Anreicherung
• Angereicherte Inhalte können Basis für neue
Anwendungen wie SEO sein
• Angereicherte Inhalte können selbst zur Datenquelle
werden und neue Anwendungen wie (mehrsprachige)
Q/A Services erlauben
• Nächste Schritte u.a.: Bereitstellung einfacher
Toolkomponenten für die Markupwelt
Sasaki – Markupforum 2014
53
54. Tools, offene Daten, Vokabulare
und Anwendungsszenarien für
semi-automatische
Metadatengenerierung
Felix Sasaki
DFKI / W3C Fellow
Sasaki – Markupforum 2014
54
Notas do Editor
Die Metadaten gehen nicht in die Inhalte
Anwendung „Metadaten um Suche zu erleichtern“ hat als Ergebnis das ganze Objekt
Keine Analyse der eigentlichen Objekte, außer bei der automatischen Indexierung = Erzeugung von Metadaten für das ganze Objekt
Auszeichnung bzw. Anreicherung von Inhalten mit Metadaten
Objektbezogene Metadaten (ONIX, GND, VIAF, ...) müssen nicht weggeworfen werden, können aber der Inhaltsanreicherung dienen
Ziel
Neue Anwendungsszenarien
Verknüpfung mit weiteren Datenquellen
Note: for most of the things RDFS is enough
Die Metadaten gehen nicht in die Inhalte
Anwendung „Metadaten um Suche zu erleichtern“ hat als Ergebnis das ganze Objekt
Keine Analyse der eigentlichen Objekte, außer bei der automatischen Indexierung = Erzeugung von Metadaten für das ganze Objekt