Este documento apresenta uma introdução à disciplina de Web Semântica e Ontologias, descrevendo seu objetivo de permitir que máquinas entendam melhor os dados da web através da adição de semântica. Explica a diferença entre a web de documentos e a web de dados, e como a web semântica visa embutir significado nos dados para que computadores possam interpretá-los de forma mais precisa.
1.
Bem
vindos
à
disciplina
Web
Semân)ca
e
Ontologias
Universidade
Federal
de
Pelotas
Disciplina
Opta7va:
1110202
Professores:
Daniela
Brauner
–
dani@inf.ufpel.edu.br
Ana
Marilza
Pernas
Roger
Machado
2. O
problema
O
volume
de
dados
disponíveis
na
Web
aumentou
(e
vem
aumentando)…
3. Redes Sociais Páginas Web
Bases de dados
científicas
BIG DATA
Sensores
Dispositivos
móveis
Cidades
Inteligentes
4. O
problema
…e
como
encontramos
a
informação
que
buscamos?
14. O
problema
E
as
máquinas?
Como
os
computadores
desambiguam
o
resultado
de
uma
busca
automaAcamente?
15. Uma
ideia
• A
Web
Semân7ca
é
uma
área
de
pesquisa
voltada
a
permi7r
que
usuários
e
máquinas
consigam
facilmente
encontrar,
compar7lhar
e
combinar
informações
na
Web;
• A
ideia
é
embu7r
semân7ca
nos
dados;
• Descrever
os
dados
com
informações
semân7cas;
16. Minha
página
pessoal
• Eu
sou
Daniela
Brauner
• Trabalho
na
• Moro
em
• Escuto
• Assisto
• Sou
amiga
da
• Fui
ao
• Adoro
17. LINK
PARA
LINK
PARA
LINK
PARA
LINK
PARA
LINK
PARA
LINK
PARA
LINK
PARA
Como
o
computador
entende
a
minha
página
18. É
AMIGA
DE
CURTE
ASSISTE
ESCUTA
MORA
EM
ESTEVE
EM
TRABALHA
PARA
Incluindo
semân7ca
TRABALHA
PARA
MORA
EM
19.
20. Conceitos
importantes
• A
Web
de
documentos
• A
Web
de
dados
• Tecnologias
• Ferramentas
• API
• Armazenamento
21. Web
de
documentos
• Hoje,
a
maior
parte
das
páginas
Web
são
documentos
HTML
conectados
uns
aos
outros
através
de
hyperlinks.
22. Web
de
documentos
• Em
1989
–
Tim
Berners-‐Lee
inventou
a
Web
• Em
1990
–
Ele
escreveu
seu
primeiro
cliente/servidor
Web
• Em
1994
–
Foi
criado
o
W3C
(World
Wide
Web
Consor7um)
…
Referências:
Linha
do
tempo
da
evolução
das
tecnologias
para
Web
(intera7va):
hip://www.evolu7onokheweb.com
Mais
sobre
Tim
Berners-‐Lee:
hip://www.w3.org/People/Berners-‐Lee/
23. Web
de
documentos
• O
World
Wide
Web
ConsorAum
(W3C)
é
um
consórcio
internacional
formado
por
organizações,
uma
equipe
em
tempo
integral
e
o
público,
que
trabalha
para
desenvolver
padrões
para
a
Web.
Foi
fundado
em
1994.
• Liderado
pelo
inventor
da
web
Tim
Berners-‐Lee
e
Jeffrey
Jaffe,
o
W3C
tem
como
missão
conduzir
a
World
Wide
Web
para
que
a)nja
todo
seu
potencial,
desenvolvendo
protocolos
e
diretrizes
que
garantam
seu
crescimento
de
longo
prazo.
Referências:
Site
oficial:
hip://www.w3.org
Escritório
brasileiro:
hip://www.w3c.br
24. Web
de
documentos
• Máquinas
conseguem
ler
esses
documentos
mas
têm
muita
dificuldade
de
extrair
algum
significado
deles…
25. Web
de
dados
Como
viabilizar
que
os
computadores
“entendam”
o
conteúdo
da
Web?
• Web
semân)ca:
é
a
visão
do
W3C
sobre
dados
conectados
na
Web.
As
tecnologias
para
Web
Semân7ca
viabilizam
que
as
pessoas
criem
repositórios
de
dados
na
Web,
vocabulários
e
que
escrevam
regras
para
que
os
computadores
possam
manipular
os
dados.
• O
W3C
mantém
esforços
colabora7vos
com
a
par7cipação
de
um
grande
número
de
pesquisadores
e
parceiros
industriais.
26. Web
de
dados
• Na
web
de
dados
também
usamos
links…
• Tudo
é
iden7ficado
por
URIs
(Uniform
Resource
Iden7fiers)
Imagine
uma
página
com
informações
sobre
Albert
Einstein:
Name
Albert
Einstein
Albert
was
born
on
March
14,
1879.
Albert
was
born
in
the
German
Empire.
Albert
has
a
picture
at
hip://en.wikipedia.org/wiki/Image:Albert_Einstein_Head.jpg
27. Web
de
dados
• Na
web
de
dados
teríamos
os
dados
anotados,
mais
ou
menos
assim:
<hip://dbpedia.org/resource/Albert_Einstein>
<hip://xmlns.com/foaf/0.1/name>
"Albert
Einstein".
<hip://dbpedia.org/resource/Albert_Einstein>
<hip://dbpedia.org/property/dateOfBirth>
"March
14,
1879".
<hip://dbpedia.org/resource/Albert_Einstein>
<hip://dbpedia.org/property/birthPlace>
<hip://dbpedia.org/resource/German_Empire>.
<hip://dbpedia.org/resource/Albert_Einstein>
<hip://xmlns.com/foaf/0.1/depic7on>
<hip://en.wikipedia.org/wiki/Image:Albert_Einstein_Head.jpg>.
URI
28. Web
de
dados
• Pra
facilitar…criamos
referências
para
os
“vocabulários”
u7lizados:
@prefix
dbp:
<hip://dbpedia.org/property/>
.
@prefix
dbr:
<hip://dbpedia.org/resource/>
.
@prefix
foaf:
<hip://xmlns.com/foaf/0.1/>
.
@prefix
rdfs:
<hip://www.w3.org/2000/01/rdf-‐schema#>
.
@prefix
xsd:
<hip://www.w3.org/2001/XMLSchema#>
.
dbr:Albert_Einstein
foaf:name
"Albert
Einstein";
dbp:birthPlace
dbr:German_Empire;
dbp:dateOfBirth
"1879-‐03-‐14"^^xsd:date;
foaf:depic7on
<hip://en.wikipedia.org/wiki/Image:Albert_Einstein_Head.jpg>
.
29. Tecnologias
• Ontologias
• XML
(eXtensible
Markup
Language):
para
definir
a
estrutura
de
documentos.
• RDF
(Resource
Descrip3on
Framework):
para
descrever
os
recursos
na
Web.
• SPARQL
(SPARQL
Protocol
and
RDF
Query
Language):
linguagem
de
consulta.
• OWL
(Ontology
Web
Language):
baseado
em
RDF,
permite
descrever
recursos
e
suas
relações.
31. Tecnologias
As
ontologias
permitem
descrever
a
semân7ca
das
classes
e
propriedades
usadas
em
documentos
na
Web.
• Tecnologias
relacionadas:
RDF,
SPARQL,
OWL
32. Tecnologias
• XML
(eXtensible
Markup
Language):
É
uma
linguagem
de
marcação
que
define
um
conjunto
de
regras
para
codificar
um
documento
em
um
formato
tanto
lido
por
humanos
quanto
por
máquinas.
Foi
definida
pelo
W3C
(World
Wide
Web
Consor7um)
em
1996.
Referências:
hip://www.w3.org/XML/
hip://www.w3schools.com/xml/
33. Tecnologias
• RDF
(Resource
Descrip3on
Framework):
framework
para
expressar
informação
na
Web
sobre
recursos
(documentos,
pessoas,
objetos
e
conceitos
abstratos)
para
que
possa
ser
entendido
por
máquina.
Referências:
hip://www.w3.org/TR/rdf-‐primer/
34. Tecnologias
• RDFa
(Resource
Descrip3on
Framework
in
a>ributes):
fornece
um
conjunto
de
atributos
de
marcação
para
enriquecer
o
dado
que
está
em
HTML
com
informações
que
podem
ser
entendidas
por
máquinas.
Referências:
hip://www.w3.org/TR/rdfa-‐primer/
35. Tecnologias
Para
ver
exemplos
de
código
RDFa
em
grafo:
hip://rdfa.info/play/
(Beta
service)
36. Tecnologias
• SPARQL
(SPARQL
Protocol
And
RDF
Query
Language)
é
a
linguagem
de
consulta
para
a
Web
Semân7ca.
Referência:
hip://www.w3.org/TR/rdf-‐sparql-‐query/
PREFIX
foaf:
<hip://xmlns.com/foaf/0.1/>
SELECT
?name
FROM
<hip://example.com/dataset.rdf>
WHERE
{
?x
foaf:name
?name
.
}
ORDER
BY
?name
37. Tecnologias
• OWL
(Web
Ontology
Language):
é
uma
linguagem
para
representação
de
ontologias.
Baseada
em
RDF.
Referência:
hip://www.w3.org/TR/owl-‐guide/
38. Ferramentas
• Protégé:
ferramenta
gratuita
e
open-‐source
para
construção
de
modelos
baseados
em
conhecimento
usando
ontologias.
Referência:
hip://protege.stanford.edu
39. API
• Jena
é
uma
API
Java
para
criação
de
aplicações
para
Web
Semân7ca
e
Linked
Data
(essencialmente
para
manipulação
de
ontologias)
• Desenvolvida
pela
Hewlei-‐Packard
(HP)
Referência:
hip://jena.apache.org
40. Armazenamento
BD
Relacional
X
Dados
RDF
• As
tabelas
armazenam
apenas
aquilo
que
foram
projetadas
para
armazenar
• O
significado
deve
ser
interpretado
pelo
usuário
ou
construído
no
sokware
• Pode
acomodar
novos
esquemas
de
dados,
sem
custo
• É
entendido
por
humanos
e
por
máquinas
Fonte:
Feigenbaum,
L.
Evolu7on
Towards
Web
3.0:
The
Seman7c
Web.
Experiences
and
Challenges
on
the
Web
and
Inside
Enterprises.
2011.
hip://pt.slideshare.net/LeeFeigenbaum/evolu7on-‐towards-‐web-‐30-‐the-‐seman7c-‐web
41. Armazenamento
BD
Relacional
X
Dados
RDF
• Como
seriam
armazenados
os
dados
sobre
Einstein:
Sujeito
Predicado
Objeto
<hip://dbpedia.org/
resource/Albert_Einstein>
<hip://xmlns.com/foaf/
0.1/name>
"Albert
Einstein".
<hip://dbpedia.org/
resource/Albert_Einstein>
<hip://dbpedia.org/
property/dateOfBirth>
"March
14,
1879".
<hip://dbpedia.org/
resource/Albert_Einstein>
<hip://dbpedia.org/
property/birthPlace>
<hip://dbpedia.org/resource/
German_Empire>
<hip://dbpedia.org/
resource/Albert_Einstein>
<hip://xmlns.com/foaf/
0.1/depic7on>
<hip://en.wikipedia.org/wiki/
Image:Albert_Einstein_Head.jpg>
43. Linked
Data
• A
Web
Semân7ca
não
é
apenas
colocar
os
dados
na
Web,
mas
sim
conectá-‐los
para
que
uma
pessoa
ou
máquina
possa
explorar
a
Web
de
Dados.
• Com
dados
vinculados
(Linked
Data)
você
pode
achar
muito
mais
dados
e
extrair
mais
informação.
• Ao
invés
de
usar
hyperlinks
para
explicitar
o
relacionamento
entre
documentos
na
Web,
na
Web
de
dados
usamos
relacionamentos
descritos
em
RDF.
• As
URIs
iden7ficam
qualquer
7po
de
objeto
ou
conceito.
Referência:
hip://www.w3.org/DesignIssues/LinkedData.html
44. Dados
vinculados
em
2007
FONTE:
Linking
Open
Data
cloud
diagram
2014,
by
Max
Schmachtenberg,
Chris7an
Bizer,
Anja
Jentzsch
and
Richard
Cyganiak.
hip://lod-‐cloud.net/
45. Dados
vinculados
em
2014
FONTE:
Linking
Open
Data
cloud
diagram
2014,
by
Max
Schmachtenberg,
Chris7an
Bizer,
Anja
Jentzsch
and
Richard
Cyganiak.
hip://lod-‐cloud.net/
46. Ferramentas
• CKAN
é
uma
ferramenta
para
gerenciar
e
publicar
coleções
de
dados.
• Permite
a
busca,
construção
de
mapas,
grafos
e
tabelas.
• Open-‐source.
• Desenvolvido
pela
Open
Knowledge
Founda7on
(2006).
• Suporte
a
linked
data.
Referência:
hip://ckan.org
47. Ferramentas
• Datahub
é
um
catálogo
gratuito
de
coleções
de
dados
abertos
• Permite
a
busca
de
dados,
registro
de
coleções
de
dados,
criação
e
gerenciamento
de
grupos
de
bases
de
dados,
além
de
permi7r
que
o
usuário
receba
atualizações
sobre
as
coleções
de
interesse;
• API
de
acesso:
CKAN
API
• Criado
pela
Open
Knowledge
Founda7on
Referência:
hip://datahub.io
48. Referências
• hip://www.w3.org
• hip://www.w3.org/standards/seman7cweb/
• Xexéo,
G.
Big
Data:
Computação
para
uma
sociedade
conectada
e
digitalizada.
Ar7go
publicado
na
revista
Ciência
Hoje
(CH
306
-‐
Agosto/2013):
hip://cienciahoje.uol.com.br/revista-‐ch/
2013/306/pdf_aberto/bigdata306.pdf
Este
obra
de
Ana
Marilza
Pernas
e
Daniela
Brauner
está
licenciado
com
uma
Licença
Crea7ve
Commons
Atribuição-‐NãoComercial-‐Compar7lhaIgual
4.0
Internacional.