Bit wisem 2015-wieners-sitzung-12_Zusammenfassung I
BIT I SoSem 2015 | Basisinformationstechnologie II - 03_Semantic Web
1. Universität zu Köln. Historisch-Kulturwissenschaftliche Informationsverarbeitung
Dr. Jan G. Wieners // jan.wieners@uni-koeln.de
Basisinformationstechnologie II
Sommersemester 2015
29. April 2015 – Semantic Web
2. Ausgangspunkt: Das World Wide Web (WWW)
Einschränkungen des WWW
Semantic Web
Problemstellung, Intention, Worum geht‘s?
Wissensrepräsentation
Mikroformate
RDF, RDF / XML
(Ontologien)
Anwendung: FOAF
Sitzungsüberblick
14. „Magic“ II:
Ranking: Sortierung der Treffer von hochrelevanten zu
weniger relevanten Treffern
„Magic“ III:
Performance:
It‘s magic?
15. „What‘s wrong with the web?“ – die Grenzen des
WWW
I. „Wer ist Jan Wieners?“
Suchanfrage: Wieners
[Wer], [ist] weniger relevante Suchterme
World Wide Web
16. „What‘s wrong with the web?“ – die Grenzen des
WWW
II. „Zeige mir Fotos von Paris“
Suchmaschinen versuchen (mitunter), die
Bedeutung eines Bildes / das im Bild dargestellt
durch den Kontext zu erschließen:
Dateiname
Text, der sich in Bildnähe befindet
17. „What‘s wrong with the
web?“ – die Grenzen
des WWW
III. „Finde Musik, die
ich mögen könnte“
Knackpunkt:
Hintergrundwissen –
Welche Musik mag ich
derzeit?
(Musikgeschmack
verändert sich mitunter)
World Wide Web
18. Oh weh, was
meint sie / er
damit bloß???
Knackpunkt: Den Computermechanismen
mangelt‘s an Wissen!
„knowledge gap“:
Probleme im Verständnis natürlicher
Sprache
Interpretation des Inhaltes von Bildern
oder anderen multimedialen Dingen
Computer verfügt nicht über
Hintergrundwissen über das der
Benutzer / die Benutzerin verfügt
Computer verfügt nicht über
Hintergrundwissen über die Benutzerin /
den Benutzer
20. Ach so ist das gemeint!
…hätte sie / er das nicht
gleich sagen können?!?
ToDo: Wissenslücke
zwischen Benutzer und
Computer mindern
Bereitstellung von
Wissen in einer Art und
Weise, in der es von
Computern verarbeitet
werden und für weiteres
Schließen verwendet
werden kann
Z.B.: Bereitstellung von
(semantischen)
Metainformationen, die
die Inhalte der Website
beschreiben (description,
keywords, etc.)
24. Konzept des Semantic Web formuliert 1996 von
Tim Berners-Lee
Kerntechnologien (logikbasierte Sprachen zur
Representation von Wissen und (automatisiertem)
Schließen) entwickelt im Forschungsfeld der
Künstlichen Intelligenz.
Standards: W3C
Ursprüngliche Intention: Annotation –
Anreicherung der Inhalte im WWW durch
Metadaten
Semantic Web
25.
26. Menschliches Denken Rationales Denken
„[Die Automatisierung von]
Aktivitäten, die wir dem
menschlichen Denken
zuordnen, Aktivitäten wie
beispielsweise
Entscheidungsfindung,
Problemlösung, Lernen.“
(Bellman, 1978)
„Die Studie mentaler
Fähigkeiten durch die
Nutzung
programmiertechnischer
Modelle.“
(Charniak und
McDermott,1985)
Menschliches Handeln Rationales Handeln
„Das Studium des
Problems, Computer dazu
zu bringen, Dinge zu tun,
bei denen ihnen
momentan der Mensch
noch überlegen ist.“
(Rich und Knight, 1991)
„Computerintelligenz ist die
Studie des Entwurfs
intelligenter Agenten.“
(Poole et al., 1998)
Fokussierungsweisen von KI nach Russell / Norvig
28. „Designed for humans first and machines second,
microformats are a set of simple, open data formats
built upon existing and widely adopted standards.”
(http://microformats.org/)
Mikroformate
33. Extensible Markup Language (XML)
„Wohlgeformtheit“?
Gültigkeit (Validität)?
DTD?
XML Schema? Schematron? RELAX NG?
XML?
34. Natürlichsprachige Aussage:
Die Webseite „http://www.example.org“ hat einen Urheber namens Jan
Wieners.
Die Aussage besteht aus dem Gegenstand der Aussage,
einer Eigenschaft des Gegenstandes und einem Wert für diese
Eigenschaft.
In RDF Terminologie wird der Gegenstand der Aussage als Subjekt (subject),
die Eigenschaft als Prädikat (predicate) und Wert der Eigenschaft als
Objekt (object) bezeichnet.
Subjekt, Prädikat und Objekt bilden ein Tripel.
RDF Grundkonzepte
35. Ein oder mehrere Tripel bilden einen RDF-
Graphen:
RDF (Graphen)modell
Subject A Object A
Predicate A
Object B
Predicate B
36. Bestandteile der Aussage getrennt von
Leerzeichen
URI in spitzen Klammern
Eigenschaftswerte in Anführungszeichen
Standardnotationsformate: N-Triple, Turtle, etc.
„Das HTML-Dokument index.html wurde von Jan
Wieners erstellt“:
ex:index.html dc:creator “Jan Wieners“
N-Tripel Notation
37. Namespaces / Namensräume
Klassen und Eigenschaften unterhalb des
gleichen URI bilden einen Namespace.
Beispiel: Dublin Core
http://purl.org/dc/elements/1.1/title
http://purl.org/dc/elements/1.1/creator
http://purl.org/dc/elements/1.1/date
FOAF
http://xmlns.com/foaf/0.1
RDF
46. „The FOAF ("Friend of a Friend") project is a
community driven effort to define an RDF
vocabulary for expressing metadata about people,
and their interests, relationships and activities.”
Grundaufbau eines FOAF-Dokumentes:
RDF / XML und FOAF
<?xml version="1.0"?>
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
xmlns:foaf="http://xmlns.com/foaf/0.1/">
<!– Hier kommt das FOAF-XML rein -->
</rdf:RDF>
47. Hinzufügen einer Person und eines Namens:
RDF / XML und FOAF
<?xml version="1.0"?>
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
xmlns:foaf="http://xmlns.com/foaf/0.1/">
<foaf:Person>
<foaf:name>Jan Wieners</foaf:name>
</foaf:Person>
</rdf:RDF>
48. Hinzufügen einer Email-Adresse:
RDF / XML und FOAF
<?xml version="1.0"?>
<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#"
xmlns:foaf="http://xmlns.com/foaf/0.1/">
<foaf:Person>
<foaf:name>Jan Wieners</foaf:name>
<foaf:mbox rdf:resource="mailto:jan.wieners@uni-koeln.de"/>
</foaf:Person>
</rdf:RDF>
Internet vs. WWW
WWW: Sehr großer Ressourcenfundus:
Dokumente bzw. Textuelle Information (HTML-Dokumente, PDF, etc.)
Bilder
Videodateien
Konzepte: Das WWW…
bietet Mechanismen, um auf Dokumente des Internets zugreifen zu können HTTP, sowie die Eindeutige Referenzierung von Inhalten: URL
bietet eine Syntax (HTML), um Dokumente anzuzeigen und miteinander zu verknüpfen (Hyperlinks)
Aufruf einer Website - HTTP
Client stellt Anfrage an Server
Server beantwortet Anfrage, d.h. liefert ein Dokument / eine Ressource zurück
HTML definiert eine Syntax, die von Rechnern verstanden werden kann HTML sagt dem Rechner, wie das Dokument angezeigt werden soll
…
1989 am CERN entwickelt
Intention: Austausch von Forschungsergebnissen
Vannevar Bush [ˌvæˈniː.vɚ] KBE (1890 in Everett, Massachusetts; † 30. Juni 1974 in Belmont, Massachusetts) war ein US-amerikanischer Ingenieur und Analogrechner-Pionier. Bush war eine der wichtigsten Personen der US-Kriegsführung im Zweiten Weltkrieg, er entwickelte in seinem 1945 publizierten Essay As we may think das Konzept des Memex (Memory Extender), der als ein Vorläufer des Personal Computers und des Hypertextes gilt.
Der Memex (Memory Extender; dt. etwa: Gedächtnis-Erweiterer) ist ein als möglichst menschengerechtes, einfach bedienbares Wissensfindungs- und Verwertungssystem konzipierter Kompakt-Analog-Rechner, der 1945 von Vannevar Bush im Artikel As We May Think (Atlantic Monthly, Juli 1945, S. 101 ff.) fiktiv vorgestellt wurde.
…die Nadel im Heuhaufen…?
Probleme:
Prüfung der Suchergebnisse auf Benutzerseite - daran haben wir uns gewöhnt
Gefahr / Dilemma: Die Suchanfrage ist überspezifiziert Durch Angabe weiterer Suchterme schränken wir die Trefferliste erneut ein
Weiteres Problem: Es könnten Seiten im WWW existieren, die sich mit dem Suchbegriff beschäftigen, ihn jedoch nicht nennen, z.B. Jan W.
(Zunehmendes Problem „Filter Bubble“: Wir bekommen nur die Suchergebnisse, die Suchmaschinenanbieter für uns vorsehen)
Discovr
Paradigmenwechsel: von passiver Rechenleistung zu aktiver Rechenleistung (Verständnis der Inhalte)
Das Semantic Web will Computern helfen, die Bedeutung hinter den Webseiten zu "verstehen“
Das derzeitige WWW dreht sich um Dokumente
Das Semantic Web dreht sich um Dinge (Menschen, Musik, Filme), um Konzepte
Eine Möglichkeit: Einbettung semantischer Information in HTML-Seiten
Paradigmenwechsel: von passiver Rechenleistung zu aktiver Rechenleistung (Verständnis der Inhalte)
Das Semantic Web will Computern helfen, die Bedeutung hinter den Webseiten zu "verstehen“
Das derzeitige WWW dreht sich um Dokumente
Das Semantic Web dreht sich um Dinge (Menschen, Musik, Filme), um Konzepte
Eine Möglichkeit: Einbettung semantischer Information in HTML-Seiten
Kurzer Exkurs: Künstliche Intelligenz
Ein Knackpunkt: Das Semantic Web macht Arbeit. Benutzerinnen und Benutzer müssen neben Inhalten auch Metadaten, d.h. beschreibende Inhalte bereitstellen
Bei Webseiten: Mikroformate
Wissensrepräsentation: Ontologien und Ontologiesprachen
(Ontologie: Wissenschaft vom Sein des Seienden)
Ontologien werden formuliert in formalen Sprachen mit einer wohldefinierten Syntax
Ontologien gründen auf der Arbeit von Gemeinschaften (Communities)
RDF und OWL = am häufigsten verwendete Sprachen
Ontologien
Leichtgewichtige: Unterscheidungen zwischen Klassen, Instanzen und Eigenschaften, jedoch nur minimale Beschreibung der Konzepte
Schwergewichtige: Machen‘s möglich, präziser zu beschreiben, wie Klassen von anderen Klassen abgeleitet sind
In der Praxis: leichtgewichtige Ontologien
The Resource Description Framework (RDF)
Erfunden, um Ressourcen im WWW zu beschreiben
Anders als Mikroformate: Machines first
Domänenunabhängig, d.h. kann auch dazu verwendet werden, Entitäten der realen Welt zu beschreiben
RDF ist eine einfache Modellierungssprache, ist jedoch die Grundlage für komplexere Sprachen wie OWL
(Binäre) Relationen
RDF-Graphen lassen sich visuell darstellen: (Subjekt und Objekt sind dann die Knoten, Prädikate die Kanten im Graphen)
Namensraum
Vordefiniert, selbst definierter Namensraum
Ontologie
URL
Frag
findet die Namen aller afrikanischen Hauptstädte und das Land, in dem sich die jeweilige Hauptstadt befindet.ezeichen = Variablen