PhD Web Mining Course (unit 6) at Universidad Autonoma de Madrid Spain. The talk provides an overview of the SW, from the main motivation and idea, to the paths taken towards its realisation. It describes tools, representation languages and applications. The slides aim to provide a list of useful references for educational purposes.
1. Universidad Autónoma de Madrid
Escuela Politécnica Superior
Máster Universitario en Investigación e Innovación en
Tecnologías de la Información y las Comunicaciones
Web Mining
Mining semi-structured data
The Semantic Web: From words to meanings
Miriam Fernández, m.fernandez@open.ac.uk
Knowledge Media Institute, The Open University, UK
2. 1
• 1. Introduction
• Unstructured data vs. structured data
• Data vs. information vs. knowledge
• Motivation
• 2. The Semantic Web
• What is the Semantic Web?
• The Semantic Web weapons: ontologies & representation languages
• The Semantic Web tools: ontology editors & triple stores
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
3. 2
• 3. Two paths towards the Sematic Web vision
• Metadata embedded in HTML
• Linked Data
-‐ An example
• 4. Sematic Web applications
• Search engines
• Recommendations
• Open government
• Institutions
-‐ The Open University
-‐ BBC
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
4. 3
• 1. Introduction
• Unstructured data vs. structured data
• Data vs. information vs. knowledge
• Motivation
• 2. The Semantic Web
• What is the Semantic Web?
• The Semantic Web weapons: ontologies & representation languages
• The Semantic Web tools: ontology editors & triple stores
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
5. What is … ? 4
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
6. What is … ? 5
Rigid structure: well defined
vocabularies and representation
(e.g. databases)
Flexible structure
(e.g. tags, taxonomies)
No structure
(e.g. free text)
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
7. What is … ? 6
Iván in Italy!
Semantic interpretation
A picture!
Syntactic interpretation
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
8. Why do we need to add structure? THE CHALLENGE 7
Is this a person, an object, a
place? I don’t understand
anything! L
Semantic interpretation
A picture!
Syntactic interpretation
Find the way machines can extract & interpret knowledge!
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
9. Why is this important? 8
We have entered the Zettabyte era! (a billion terabytes)
http://www.emc.com/collateral/demos/microsites/emc-digital-universe-2011/index.htm
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
10. Why is this important? 9
• Information overwhelming
• We need mechanisms to support
-‐ better information search
-‐ better information integration
-‐ automatic knowledge extraction
• User generated content is generally unstructured
• Machines can not understand such content!
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
11. Why is this important? 10
Many pages later I still didn’t
find what I was looking for!
L
The search engine didn’t
understood my query
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
12. Why is this important? 11
Available houses
Moving to England… Crime reports in
looking for a place to live different areas
Amenities
Far too much distributed and unrelated information
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
13. 12
• 1. Introduction
• Unstructured data vs. structured data
• Data vs. information vs. knowledge
• Why is this important?
• 2. The Semantic Web
• What is the Semantic Web?
• The Semantic Web weapons: ontologies & representation
languages
• The Semantic Web tools: ontology editors & triple stores
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
14. The Semantic Web 13
“I have a dream for the Web in which computers become capable of
analysing all the data on the Web”
"The Semantic Web is an extension of the current Web in which
information is given well-defined meaning, better enabling computers
and people to work in cooperation."
Tim Berners-Lee, James Hendler, Ora Lassila, The Semantic Web, Scientific American,
May 2001
“The Semantic Web is a vision: the idea of having data on the web
defined and linked in a way that it can be used by machines not just for
display purposes, but for automation, integration and reuse of data
across various applications”
http://www.w3.org/2001/sw
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
15. The Semantic Web 14
To the Web of machine understandable content
The Web of objects and relations
Structured
Unstructured
From the Web of human understandable content
The Web of documents and links
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
16. The Semantic Web weapons: ONTOLOGIES 15
An ontology is a formal, explicit
specification of a shared conceptualization
Formal: machine-readable
Explicit: concepts, properties,
relations, functions, constraints,
axioms are explicitly defined
Shared: consensual knowledge
Conceptualization: abstract
model and simplified vide of
some phenomenon in the world
that we want to represent
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
17. The Semantic Web weapons: ONTOLOGIES 16
How to model the world of Pizzas?
ontology knowledge base
Classes Properties Individuals
Cuatrro
Formaggi
hasCountryOrigin
Italy
Restrictions
h>p://owl.cs.manchester.ac.uk/tutorials/protegeowltutorial/resources/ProtegeOWLTutorialP4_v1_3.pdf
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
18. The Semantic Web weapons: 17
REPRESENTATION AND QUERY LANGUAGES
Querying data (SPARQL)
Capturing ontologies (OWL)
Expressing and linking data,
including metadata (RDF)
Assigning unambiguous names (URI)
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
19. RDF (Resource Description Framework) 18
• RDF identifies things using Web identifiers (URIs), and describes
resources with properties and property values.
• The triple representation (subject, predicate, object)
<?xml
version="1.0"?>
<rdf:RDF
xmlns:rdf="h>p://www.w3.org/1999/02/22-‐rdf-‐syntax-‐ns#"
Xmlns:epsp=h>p://www.ir.ii.uam.es/personnel#>
<rdf:DescripYon
rdf:about="h>p://www.ir.ii.uam.es/personnel/IvanCantador">
<epsp:name>Ivan</epsp:name>
<epsp:lastname>Cantador</epsp:lastname>
<epsp:naYonality>Spanish</epsp:naYonality>
<rdf:type>Assistant
Professor</rdf:type>
</rdf:DescripYon>
</rdf:RDF>
h>p://www.ir.ii.uam.es/personnel/name
h>p://www.ir.ii.uam.es/
Ivan
personnel/IvanCantador
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
20. RDFS (RDF Schema) 19
• RDFS provides the framework to describe classes and properties. It
allows the creation of hierarchies
<?xml
version="1.0"?>
<rdf:RDF
xmlns:rdf="h>p://www.w3.org/1999/02/22-‐rdf-‐syntax-‐ns#"
xmlns:rdfs="h>p://www.w3.org/2000/01/rdf-‐schema#"
xml:base=”
h>p://www.eps.uam.es#
<rdfs:Class
rdf:ID=”Professor"
/>
<rdfs:Class
rdf:ID=”Assistant
Professor">
<rdfs:subClassOf
rdf:resource=”#Professor"/>
</rdfs:Class>
<rdf:Property
rdf:ID=“teachesSubject”>
<rdfs:Domain
rdf:resource=“#Professor"/>
<rdfs:Range
rdf:resource=“#Subject"/>
</rdf:Property>
</rdf:RDF>
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
21. OWL (Web Ontology Language) 20
• OWL is a stronger language with greater machine interpretability than
RDF/RDFS (reasoning support)
• OWL Little / OWL DL / OWL Full Value
constraints:
owl:allValuesFrom
<?xml
version="1.0"?>
owl:someValuesFrom
<rdf:RDF
owl:hasValue
xmlns:rdf="h>p://www.w3.org/1999/02/22-‐rdf-‐syntax-‐ns#"
xmlns:rdfs=h>p://www.w3.org/2000/01/rdf-‐schema#
Cardinality
constraints:
xmlns:owl
=
"h>p://www.w3.org/2002/07/owl#"
owl:cardinality
xml:base=“h>p://www.eps.uam.es#
owl:minCardinality
owl:maxCardinality
<owl:Class
rdf:ID=”Professor”>
….
<owl:restricYon>
<owl:onProperty
rdf:resource=“#hasAcademicTitle"/>
<owl:hasValue>
PhD^^h>p://www.w3.org/2001/XMLSchema#string</owl:hasValue>
<owl:restricYon>
</owl:Class>
</rdf:RDF>
Ivan
has
a
PhD
-‐>
therefore
Ivan
can
be
professor!
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
22. SPARQL (SPARQL Protocol and RDF Query Language) 21
• SPARQL is a query language for RDF
• Based on the triple representation (subject, predicate, object)
• SPARQL 1.1 is W3C Recommendation since 21st March 2013
PREFIX
epsp:
<h>p://www.eps.uam.es>
<rdf:RDF
xmlns:rdf="h>p://www.w3.org/1999/02/22-‐rdf-‐syntax-‐ns#"
SELECT
?x
?name
WHERE
{
?x
rdf:type
epsp:Assistant
Professor.
?x
epsp:name
?name.
Can
you
Google
this?
?x
epsp:naYonality
“Spanish”}
SPARQL
allows
the
construcYon
of
very
powerful
queries
-‐
Filtering
elements
-‐
Querying
named
graphs
-‐
Ordering
by/
disYnct
/
reduced
/
offset
/
limit
-‐
Count
/
sum
/
avg
/
min
/
max
/
GroupConcat
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
23. The Semantic Web tools: ONTOLOGY EDITORS 22
• An ontology editor lets the creation or manipulation of ontologies
h>p://en.wikipedia.org/wiki/Ontology_editor
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
24. The Semantic Web tools: TRIPLE STORES 23
• A triple store lets persistent storage of RDF data and querying via
SPARQL
h>p://www.garshol.priv.no/blog/231.html
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
25. 24
• 3. Two paths towards the Sematic Web vision
• Metadata embedded in HTML
• Linked Data
-‐ An example
• 4. Sematic Web applications
• Search engines
• Recommendations
• Open government
• Institutions
-‐ The Open University
-‐ BBC
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
26. Two paths towards the SW vision: ADDING DATA TO THE WEB
25
• Metadata embedded in HTML
• Microformats
• RDFa
• Schema.org
• HTML5
• Linked Data
• Publish the data online in a standard, web enabled representation
(RDF)
• Make the data web addressable (URI)
• Link with other data
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
27. 26
• 3. Two paths towards the Sematic Web vision
• Metadata embedded in HTML
• Linked Data
-‐ An example
• 4. Sematic Web applications
• Search engines
• Social Networks
• Open government
• Institutions
-‐ The Open University
-‐ BBC
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
28. Microformats 27
• Microformats use existing HTML attributes to embed structured data
types in an HTML document
• Expressive power is limited as microformats are only designed to pre-
defined vocabularies
• No interlinking between entities
<div
class="vcard">
<a
class="fn
org
url"
href="h>p://www.eps.uam.es/">EPS</a>
<div
class="adr">
<span
class="street-‐address">Francisco
Tomas
y
Valiente</span
>
<span
class="locality">Madrid</span>,
<span
class="postal-‐code">28049</span>
<span
class="country-‐name">Spain</span
>
</div>
</div>
h>p://microformats.org
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
29. RDFa (Resource Description Framework in Attributes) 28
• W3C standard for embedding RDF data in HTML documents
• A set of new HTML attributes ands specs of how to use them
• RDFa is just a syntax, the publisher has to choose the vocabulary
• RDFa is domain independent
<html>
<body
vocab="h>p://xmlns.com/foaf/0.1/">
...
<h2
property=”name”>Ivan
Cantador</h2>
<p><span
property=”gender">undefined</span></p>
...
</body>
</html>
Web
standard
since
June
2012
h>p://www.w3.org/TR/rdfa-‐core/
h>p://www.w3.org/TR/xhtml-‐rdfa-‐primer
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
30. RDFa (Resource Description Framework in Attributes) 29
• Used by Facebook! … among others ;)
• RDF vocabulary to be used in conjunction with RDFa
<html
xmlns:og="h>p://opengraphprotocol.org/schema/">
<head>
<Ytle>The
Rock
(1996)</Ytle>
<meta
property="og:Ytle"
content="The
Rock"
/>
<meta
property="og:type"
content="movie"
/>
<meta
property="og:url"
content="h>p://www.imdb.com/Ytle/>0117500/"
/>
<meta
property="og:image"
content="h>p://ia.media-‐imdb.com/images/
rock.jpg"
/>
…
</head>
...
</html>
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
31. HTML5 (microdata) 30
• HTML introduces inline elements (text-level semantics) to describe
specific type of information
<div
itemscope
itemtype="h>p://data-‐vocabulary.org/Person">
My
name
is
<span
itemprop="name">Ivan</span>
Here
is
my
home
page:
<a
href="h>p://arantxa.ii.uam.es/~cantador/"
itemprop="url">h>p://arantxa.ii.uam.es/~cantador/</a>
I
live
in
Madrid,
and
work
as
an
<span
itemprop="Ytle">Assistant
Professor</span>
at
<span
itemprop="affiliaYon">UAM</span>.
</div>
• Itemid
• Itemprop
• Itemref
• Itemscope
• itemtype
h>p://dev.w3.org/html5/md-‐LC/#encoding-‐microdata
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
32. Schema.org 31
• Provides a collection of vocabularies, a long with the microdata
format, that are recognised by the major search engine providers (de
facto standard)
<div
itemscope
itemtype=h>p://schema.org/Movie>
<h1
itemprop="name">Pirates
of
the
Carribean:
On
Stranger
Tides
(2011)</h1>
Director:
<div
itemprop="director"
itemscope
itemtype="h>p://schema.org/Person">
<span
itemprop="name">Rob
Marshall</span>
</div>
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
33. 32
• 3. Two paths towards the Sematic Web vision
• Metadata embedded in HTML
• Linked Data
-‐ An example
• 4. Sematic Web applications
• Search engines
• Recommendations
• Open government
• Institutions
-‐ The Open University
-‐ BBC
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
34. Linked Data 33
Linked Open Data
(September 2011)
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
35. Linked Data: WHAT IS IT ABOUT? 34
• The Web as one huge interconnected data graph
• A Web of interlinked objects
• Objects described in a standard, web enabled representation (RDF)
• Each RDF document describes the characteristics of a single object,
and links to related objects
• Each object has a unique web address (URI)
• Objects are linked with other objects
-‐ Important: links to the same objects in different datasets (sameAs)
• Guidelines for proper configuration of web servers to serve such
documents
• Vocabularies should be reused!
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
36. Linked Data: WE TALK ABOUT OBJECTS 35
The DBpedia ontology, http://dbpedia.org
Wikipedia
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
37. Linked Data: OBJECTS ARE LINKED! Data
36
Mashups
Moving to England…
looking for a place to
leave
A unique information space
Available houses
Amenities Crime reports
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
38. Linked Data 37
• Advantages:
• No change to the publishing of the HTML documents
• Data can be published by third party (e.g. DBpedia)
• Data is interlinked
• Disadvantages:
• Web servers need to be configured to properly handle URIs that identify
concepts instead of documents
• Search engines need to be extended to crawl Linked Data
• Suitable vocabularies/ontologies are not always available
• Data is not always easy to obtain
• Data is not always linked to relevant data
• Data is not always linked to HTML documents
-‐ Web mining: OBTAINING, STRUCTURING AND LINKING DATA
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
39. Methodological guidelines for publishing Linked Data 38
h>p://delicias.dia.fi.upm.es/wiki/images/f/f6/04_MGLD.pdf
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
40. Vocabularies / Schemas / Ontologies 39
• Search for suitable vocabularies
• Reuse (if they exist)
• Build new vocabularies based on existing ones (if they do not exist)
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
41. Obtaining and structuring data 40
• From unstructured, semi-structured and structured data sources
Textual
documents
Spreadsheets
Natural Language Processing (NLP)
• Entity extractors
• Relation extractors NOR2O
http://oeg-dev.dia.fi.upm.es/nor2o/#download
TextRunner
http://openie.cs.washington.edu Cvs2rdf4LOD
http://logd.tw.rpi.edu/technology/csv2rdf4lod
YAGO: A Core of Semantic Knowledge
Unifying WordNet and Wikipedia, Suchanek et
al., WWW 2007. MappingMaster
http://protege.cim3.net/cgi-bin/wiki.pl?MappingMaster
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
42. Obtaining and structuring data 41
Bringing
the
Deep
Web
to
the
Surface!
DataBases
WebAPis
Bizer
et
al.
The
RDF
Book
Mashups:
Whole
subarea
of
research
within
From
Web
APIs
to
a
Web
of
Data
the
SW
community
h>p://www.dvi.uni-‐kl.de/~grimnes/
2007/06/SFSW07Papers/6.pdf
RDB2RDF
h>p://www.w3.org/2001/sw/rdb2rdf
WebForms
ultrawrap
h>p://capsenta.com/ultrawrap
RDBToOnto
Madhavan
et
al.
Google's
Deep-‐Web
h>p://www.tao-‐project.eu/
Crawl.
VLDB
2008
researchanddevelopment/
h>p://www.cs.cornell.edu/~lucja/
demosanddownloads/
publicaYons/i03.pdf
RDBToOnto.html
Web Mining
The Semantic Web: From words to meanings
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
43. Obtaining and structuring data 42
HTML
Tables
And
many
other
semi-‐structured
data
XML,
UML,
BibText,
Tags,
…
Cafarella
et
al.
WebTables:
ConverterToRDF
Exploring
the
Power
of
Tables
h>p://www.w3.org/wiki/ConverterToRdf
on
the
Web.
VLDB
2008
Other useful tools to obtain and structure data
Google
Refine
h>ps://code.google.com/p/google-‐refine
And
its
extension
RDF
Refine
h>p://refine.deri.ie
Google
Fusion
Tables
h>p://support.google.com/fusiontables
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
44. Linking Data 43
• 1. Identify suitable datasets as linking targets
Data
Hub
ckan.net
Geonames
DBpedia
• 2. Discover relationships between data items
owl:sameAs
owl:sameAs
http:// http://
http://mydataset/
sws.geonames.org/ dbpedia.org/
Madrid
6355233 resource/Madrid
Silk
Framework:
h>p://wifo5-‐03.informaYk.uni-‐mannheim.de/bizer/silk
Limes:
h>p://aksw.org/Projects/LIMES.html
h>p://delicias.dia.fi.upm.es/wiki/images/f/f6/04_MGLD.pdf
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
45. Linking Data to HTML Documents: THE ANNOTATORS 44
• The annotators extract entities (classes / individuals) and relations
from the text and link them to object URIs
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
46. 45
• 3. Two paths towards the Sematic Web vision
• Metadata embedded in HTML
• Linked Data
-‐ An example
• 4. Sematic Web applications
• Search engines
• Recommendations
• Open government
• Institutions
-‐ The Open University
-‐ BBC
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
47. Obtaining, structuring and linking data: AN EXAMPLE 46
BEFORE LINKED DATA
Any material
about C++?...
Ufff...
Where to start?!
AFTER LINKED DATA
One unique
information
space
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
48. Obtaining, structuring and linking data: AN EXAMPLE 47
Use of Linked Data
1. Select and extract educational
information from various sources
2. Reuse well-known vocabularies to
describe and structure the previously
Fernandez
et
al.
(2011)
Linking
Data
Across
UniversiYes:
An
Integrated
extracted data
Video
Lectures
Dataset,
10th
3. Link the educational material under a
InternaYonal
SemanYc
Web
common categorization scheme
Conference
(ISWC
2011),
Bonn
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
49. Specification: SELECTING & ANALYSING DATA 48
• VideoLectures.net
Web scrapper
Study the structure of
HTML pages and use a
HTML parser to extract
the data of interest
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
50. Specification: SELECTING & ANALYSING DATA 49
• YouTube University Channels
<entry gd:etag='W/"DkADSH47eCp7ImA9WhZWFEg."'>
<id>tag:youtube.com,2008:video:zZCaHSW88Ts</id>
<published>2011-02-18T11:41:08.000Z</published>
<updated>2011-05-15T10:19:39.000Z</updated>
<category scheme='http://gdata.youtube.com/schemas/2007/categories.cat'
term='Education' label='Education'/>
<category scheme='http://gdata.youtube.com/schemas/2007/keywords.cat'
term='Dr Barry Cooper'/>
<title>Intro to Professional Practice (Children & Families)</title>
<author> … </author>
<media:description … </media:description>
<media:keywords>…</media:keywords>
<media:thumbnail …/>
<yt:duration seconds='399'/>
<content …'/>
YouTube API: select the the fields of interest
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
51. Specification: SELECTING & ANALYSING DATA 50
• OU Podcasts (data.open.ac.uk)
Already structured data: SPARQL query
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
52. Modeling: REUSING VOCABULARIES 51
Vocabularies selected to describe the data
• Dublin Core I describe
• http://dublincore.org/documents/dcmi-terms (dcterms) educational
material
• FOAF
I describe people
• http://xmlns.com/foaf/spec (foaf) and relations
• The W3C ontology for media resources
• http://www.w3.org/TR/mediaont-10 (ma)
We describe media
• The Media Vocabulary resources
• http://payswarm.com/vocabs/media (media)
• The Nice Tag Ontology
• http://ns.inria.fr/nicetag/2010/09/09/voc.html (nt) I describe tags
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
53. Modeling: REUSING VOCABULARIES 52
The selected base URI is: http://linkeduniversities.org
1. VideoLectures objects are represented as media:Recording,
authors are represented as foaf:Person
2. The video title is duplicated in the properties rdfs:label &
dcterms:title
4. The set of tags and categories associated to a video is represented by
the nt:isRelatedTo property
5. The assigned classification in the unified search space is represented by
the dcterms:subject property
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
54. RDF generation: CREATING OBJECTS 53
Type
Provenance
ID
http://linkeduniversities.org/video/CarnegieMellonU/youtube/B135229F3706D215
rdf:type media:Recording
media:download http://www.youtube.com/watch?v=TOTuStPIeFc&feature=youtube_gdata_player
dcterms:title CMU Football Engineering Summer 2008 Video
rdfs:label CMU Football Engineering Summer 2008 Video
dcterms:description Football […]Summer 2008 Video
foaf:thumbnail http://i.ytimg.com/vi/TOTuStPIeFc/3.jpg
media:duration 155
dcterms:isPart http://linkeduniversities.org/video/CarnegieMellonU/youtube/playlist/B135229F37
ma:publisher http://linkeduniversities.org/video/CarnegieMellonU/youtube/user/footballtracking
dcterms:published 2011-06-03T23:23:53.262Z
nt:isRelatedTo http://linkeduniversities.org/video/CarnegieMellonU/tag/sports
nt:isRelatedTo http://linkeduniversities.org/video/CarnegieMellonU/tag/football
dcterms:subject http://dmoz.org/Sports/Football/Rugby_Union
dcterms:subject http://linkeduniversities.org/video/CarnegieMellonU/dmoz/Sports/Football/Rugby_Union
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
55. Links Generation: SELECTING THE LINKING POINTS 54
• A common categorization scheme:
1. The International Press Telecommunications Council (IPTC)
http://www.iptc.org/site/NewsCodes/
2. Library of Congress Subject Headings
http://id.loc.gov/authorities/about.html
3. The Open Directory Project (DMOZ)
http://www.dmoz.org/rdf.html
4. DBpedia Categories
http://dbpedia.org/About
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
56. Links Generation: EXPLOITING THE ANNOTATORS 55
(1) Extract the information
from the video lecture (4) Obtain the ODP document
classification
Reference/Knowledge_Management (id=495),
weight=0.71
(3) Provide the document to the
(2) Generate an textual document Textwise classification service
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
57. PUBLICATION 56
• New LD educational dataset
• More than 14,000 video lectures from 27 institutions
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
58. 57
• 3. Two paths towards the Sematic Web vision
• Metadata embedded in HTML
• Linked Data
-‐ An example
• 4. Sematic Web applications
• Search engines
• Recommendations
• Open government
• Institutions
-‐ The Open University
-‐ BBC
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
59. Search engines: BETTER DATA VISUALISATION 58
• 2007 Yahoo! Presented
Search Monkey
• 2009 Google
announced
Rich Snippets
If search engines could understand the data inside the HTML pages they
would display such data in better ways: pictures, dates, prices, ratings, etc.
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
60. Search engines: BETTER CONTENT RETRIEVAL 59
2012 Google announced Knowledge Graph
http://googleblog.blogspot.co.uk/2012/05/
introducing-knowledge-graph-things-not.html
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
61. Search engines: NOT ALL IS ABOUT DOCUMENTS 60
• Search engines oriented to concept-search vs. document search
FreeBase: In July 2010
Google bought Metaweb,
the company behind
freebase
Wolfram Alpha: Active
Powerset: Bought by since 2009
Microsoft in 2008
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
62. 61
• 3. Two paths towards the Sematic Web vision
• Metadata embedded in HTML
• Linked Data
-‐ An example
• 4. Sematic Web applications
• Search engines
• Recommendations
• Open government
• Institutions
-‐ The Open University
-‐ BBC
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
63. Recommendations: FACEBOOK GRAPH SEARCH 62
Links among people, places,
music, and other objects can
lead to better content
recommendation
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
64. 63
• 3. Two paths towards the Sematic Web vision
• Metadata embedded in HTML
• Linked Data
-‐ An example
• 4. Sematic Web applications
• Search engines
• Recommendations
• Open government
• Institutions
-‐ The Open University
-‐ BBC
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
65. Open Government 64
• Open government
• Data.gov
• Data.gov.uk
• Many others…
• Linking data lets more
complex queries and deeper
data analysis
• Organizations can now easily
link to public government data
Research Funding Explorer • Favour transparency
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
66. 65
• 3. Two paths towards the Sematic Web vision
• Metadata embedded in HTML
• Linked Data
-‐ An example
• 4. Sematic Web applications
• Search engines
• Recommendations
• Open government
• Institutions
-‐ The Open University
-‐ BBC
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
67. The Open University 66
OU public data sit in
OU public data sit in
different systems ––hard to
different systems hard to RAE
discover, obtain, integrate
discover, obtain, integrate
Data
from
by users
by users OpenLearn
Research
Content
ORO
Outputs
Archive
of
Library’s
Course
Exposed as linked data,
Exposed as linked data, Material
Catalogue
Of
Digital
our data interlink with each
our data interlink with each
Content
other and the external
other and the external data.gov.uk
world: become part of the
world: become part of the A/V
Material
Podcasts
“global data space” on the
“global data space” on the iTunesU
Web
Web
DBLP
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
68. The Open University 67
• The OU has been the first University to expose its data as linked data:
http://data.open.ac.uk
• Now widely recognized as a critical step forward for the HE sector in
the UK (and worldwide)
• Favor transparency and reuse of data, both externally and internally
• Reduces cost of dealing with our own public data: integration and reuse by
design
• Enable both new kinds of applications, and to make the ones that are already
feasible more cost effective
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
69. The Open University 68
• Linking Open Learn with relevant Podcasts
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
70. The Open University 69
• Exploring research communities
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
71. 70
• 3. Two paths towards the Sematic Web vision
• Metadata embedded in HTML
• Linked Data
-‐ An example
• 4. Sematic Web applications
• Search engines
• Recommendations
• Open government
• Institutions
-‐ The Open University
-‐ BBC
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
72. BBC: British Broadcasting Corporation 71
• Historically when developing websites…
• Hand-crafted customized sites
• Only some programs could be covered
-‐ Shame considering they broadcast between 1,000 and
1,500 programs/day
• All those sites were developed in isolation
- Often not maintained
- Often not persistent
Using Linked Data to build Websites more productively
http://www.slideshare.net/metade/linked-data-on-the-bbc
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
73. BBC: British Broadcasting Corporation 72
• The Linked Data Website construction model
Domain-driven design
• Identify the domain objects
and relations
• Check the domain model with
users
• Design your schema
• Design your URIs
• Define data you need to build
each of your pages
• Automatically build up your
HTML pages by querying
these data and applying CSS
layouts
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
74. BBC: British Broadcasting Corporation 73
• Programs
• Starting with the WorldCup 2010… and now… • Music
• Artists
• Animal life
• …..
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid
75. Thx! J 74
• Questions, doubts?
The Semantic Web: From words to meanings Web Mining
Máster Universitario en Investigación e Innovación en Tecnologías de la Información y las Comunicaciones
Escuela Politécnica Superior, Universidad Autónoma de Madrid