Anotacao Semântica em Documentos Não Estruturados

Anotação semântica em
documentos não estruturados

Celso Araujo Fontes
Professoras: Maria Claudia R. Cavalcanti, D.Sc. e
Ana Maria de Carvalho Moura, Dr. Ing

SC 214202 – maio de 2010 Instituto Militar de Engenharia
Sistemas de Banco de Dados, Profa. Maria Claudia Curso de Mestrado em Sistemas e Computação

Introdução

 Existem hoje bilhões de documentos na Web e
ainda milhões de páginas em intranets, sendo
acessados por 1,5 bilhões de usuários no mundo [1].
 A maior parte destas informações é construída
apenas para o consumo humano.
 Vem à tona a necessidade do gerenciamento desse
conteúdo, no que diz respeito à dificuldade na
busca, organização, acesso e manutenção das
informações.

Problemas da Web Atual

 Busca da Informação
 Problema de “precisão” das atuais
ferramentas de pesquisa
– Navegação através de links e uso de palavras
chaves p/ busca
– Problemas p/ identificar, descrever e localizar
recursos de forma mais eficiente [2]

Problemas da Web Atual

 A falta de meta dados na web inibe um
processamento por máquina mais
inteligente.

Metadados

 Metadados permitem descrever informações,
auxiliando na identificação, localização e
gerenciamento dos dados (BONIFACIO,
2002).

Ontologias
 Segundo Grubber (GRUBBER, 1992), uma ontologia
é uma especificação explícita de uma conceituação.
A conceituação é uma abstração simplificada do
domínio em que desejamos representar para algum
propósito.
 No campo da Filosofia, as ontologias têm sido
utilizadas para tentar descrever domínios naturais
(as coisas naturais do mundo) e a existência dos
seres e coisas em si, desvendando, desta forma, o
significado das coisas no mundo (LIMA e
SCHWABE, 2004).

Web Semântica

 A web semântica é “uma extensão da web
atual, em que a informação é dada com um
significado bem definido, permitindo que
computadores e pessoas trabalhem em
cooperação”. [Bernes-Lee, 2001]

Web Semântica e Ontologias

 Evolução natural de esforços anteriores
– Metadados na Web
– Padrões de Metadados
– Arquiteturas de Metadados
– RDF e RDFS foram os precursores das ontologias na Web
– Rápida evolução das demais iniciativas
 DAML
 OIL
 DAML+OIL
 OWL
 OWL2

Web Semântica – Representação do
Conhecimento

 RDF
 RDFS
 OWL
 OWL2

O que significa chamar uma tecnologia
de “semântica” ?

 Pretende:
– Representar conhecimento
– Compartilhar um entendimento comum em relação ao
significado
– Ser apropriada para a ligação de recursos sob diferentes
esquemas de representação
– Estabelecer associações entre os itens que não estão
explicitas
– Apoiar inferência sobre o conhecimento para gerar mais
conhecimento

Problema

 Dados estruturados para interpretação por
máquina normalmente são distribuídos num
formato distinto e separado do conteúdo
original e a correspondência entre eles é
bastante limitada (ADIDA et al., 2008).
 RDF, OWL e outros formatos XML são
complexos para interpretação da maioria das
pessoas

Solução

 Visando incorporar metadados ricos a um
documento e manter o seu conteúdo visual
legível ao ser humano, foram propostos
padrões de anotação semântica.
– Objetivo: utilizar um conjunto de descritores,
relacionados a um vocabulário, para “anotar”
informações de um documento da internet,
expressando o significado do conteúdo neles
descritos.

Anotação Semântica

 “Esquema específico para geração e uso de
metadados, possibilitando novos métodos de
acesso a informação” [Popov et al., 2003].
 “A anotação semântica de um documento
descreve o seu conteúdo pela associação a
conceitos e instâncias descritos na
ontologia” [Eller, 2008].

Anotação Semântica
 Na figura abaixo, podem ser observadas as anotações semânticas
referentes a um texto simples. As entidades presentes no texto são
associadas à sua definição semântica:

Exemplo de marcação
semântica. Fonte: [7]
com adaptações

Características Relacionadas para Análise
dos Padrões de Anotação Semântica

 Uso de vocabulários customizados
 DRY
 Compatibilidade com HTML
 Compatibilidade com XHTML
 Utilização somente de atributos nativos do HTML e XHTML
 Suporte ao Blank Node
 Utilização de namespaces
 Suporte a Literal simples
 Suporte a Literal XML
 Suporte à Literal tipada
 Suporte a CURIE
 Referência a nodos não descendentes

Microformat

 É um conjunto limitado de especificações utilizado
para descrever informações em documentos web.
[PEREIRA, 2009]
 Suas especificações ou vocabulários se dividem em
duas categorias:
– Padrões aceitos: validados pela comunidade e utilizados
conforme descrito nas especificações;
– Propostas emergentes: projetos que se encontram em
processo de desenvolvimento, estando suas
especificações sujeitam a alterações até sua aceitação final
(RAMOS et al., 2009).

Microformat (Exemplo)

<div class="vcard">
<span class="given-name">Celso
Fontes</span>trabalha no
<span class="org">Detran RJ</span>
</div>

“Celso
given-name Fontes”
_vcard
org
“Detran RJ”

Microformat

 Vantagens
– Simplicidade
– Popularidade (Twitter, Facebook, Flickr...)
– Utiliza atributos nativos do HTML
 Desvantagens
– Restrito a um pequeno número de vocabulários
– Não suporta o HTML5 100%

eRDF (Embedded RDF)

 Baseado em alguns princípios do
Microformat, porém permite a anotação a
utilização vocabulários arbitrários em suas
anotações semânticas [Nowack, 2005]

eRDF (Exemplo)

<link rel="schema.foaf" href="http://xmlns.com/foaf/0.1/" />
<p id="celso" class="-foaf-Person">
<span class="foaf-name">Celso Araujo</span> estuda
anotações
</p>
pe foaf:Person
rdf:ty

#celso foaf-n
ame
“Celso Araujo”

eRDF

 Vantagens
– Permite a utilização de vocabulários arbitrários
 Desvantagens
– Não possui suporte explícito a recursos anônimos
(Blank Nodes)
– Não possui suporte a literal XML e Tipada

RDFa (Resource Description Framework – in – attributes)

 Recomendação da W3C para anotação
semântica em documentos XHMTL 1.1
[W3C, 2008].
 Definido como “A collection of attributes and
processing rules for extending XHTML to
support RDF”

RDFa

<div typeof="foaf:Person" xmlns:foaf="http://xmlns.com/foaf/0.1/">
Informações sobre
<span property="foaf:name">Celso</span>
<div />

ame “Celso Araujo”
foaf:n

_blanknode1 rdf:typeOf
foaf:Person

RDFa

 Vantagens
– Blank Nodes
– CURIEs
– Suporte a literal XML e Tipada
 Desvantagens
– Adição de novos elementos ao XHMTL (about,
property, resource, datatype, typeof)
– Suporte apenas ao XHTML 1.1 (suporte ao HTML
encontra-se em fase de rascunho)

Microdata

 Padrão da W3C para anotação semântica
em documentos HTML5 [W3C, 2008].
 Esta especificação é resultado das
investigações de Ian Hickson sobre os
problemas que o RDFa consegue resolver
em contrapartida a sua complexidade
(STUDHOLME, 2010).

Microdata (Exemplo)
<div itemscope itemref="a b"></div>
<p id="a"> Meu nome é: <span itemprop="name">Celso</span>
</p>. Sou aluno da professora
<div id=“MariaClaudia" itemprop=“alunoDe" itemscope>
<span itemprop="name">Maria</span>,
Também conhecida como:
<span itemprop=“nickname">Yoko</span>
</div>

“Celso Araujo”
name “Yoko”

_blanknode1 nickname
alunoDe
#MariaClaudia name “Maria”

Microdata

 Vantagens
– Mais simples que o RDFa
– Flexibilidade para referência entre nodos

 Desvantagens
– Imaturo (poucas ferramentas, exemplos etc…)

Comparativo

Microformatos eRDF RDFa Microdata

Uso de vocabulários customizados NÃO* SIM SIM SIM
DRY SIM SIM SIM SIM
Compatibilidade com HTML SIM SIM SIM** SIM***
Compatibilidade com XHTML SIM SIM SIM**** SIM
Utilização somente de atributos nativos do SIM SIM NÃO NÃO***
HTML e XHTML
Suporte ao Blank Node NÃO NÃO SIM SIM
Utilização de namespaces NÃO SIM SIM SIM
Suporte a Literal simples SIM SIM SIM SIM
Suporte a Literal XML NÃO NÃO SIM NÃO
Suporte à Literal tipada SIM NÃO SIM SIM
Suporte a CURIE NÃO NÃO SIM NÃO
Referência a nodos não filho NÃO NÃO NÃO SIM

Ferramentas de Anotação Semântica

 São sistemas que provêem anotação
semântica sobre um conteúdo qualquer com
o auxílio de um vocabulário através de
extração automática, sugestões de
anotações ou interfaces gráficas para a
anotação manual (SEMANTICWEB, 2008).

Ferramentas de Anotação Semântica

 Annotea
 GATE
 KIM
 OpenCalais
 Zemanta
 SMORE
 Ontos
 TextWise

Comparativo
Tipo Represent Armazenamento da Anotação Referência com o Referência entre termo e Entrada de Plataforma
ação da Vocabulário Anotação Vocabulários
Anotação Arbitrários

Annotea Manual Não RDF/XML Xpointer SIM SIM Desktop
intrusiva

GATE Híbrida Híbrida Banco de dados e XML URIS SIM SIM Desktop

KIM Automática Não SIM* SIM Híbrida
intrusiva

OpenCalais Automática Não RDF/XML, JSON, URIS SIM NÃO Web
intrusiva Microformat e SimpleFormat

Zemanta Automática Não XML, JSON, WNJSON, URL NÃO NÃO Web
intrusiva RDF/XML

SMORE Manual Não RDF/XML URIS NÃO SIM Desktop
intrusiva

Ontos Automática Não JSON URIS NÃO SIM*** Web
intrusiva
TextWise Automática Não JSON e XML URIS NÃO NÃO Web
intrusiva

Ferramentas de Extração Semântica

 Ferramentas capazes de indexar metadados
contidos em ontologias ou documentos com
anotações semânticas.
 Também conhecidas como ferramentas de
“busca semântica”

Sindice

 Sindice (Semantic Web Index) é uma
ferramenta de busca semântica que coleta
dados de documentos RDF e de páginas
web com anotações no padrão
microformatos ou RDFa.

Yahoo Search Monkey

 SearchMonkey é um serviço do Yahoo! que
permite desenvolvedores e proprietários de
sites utilizarem dados estruturados de forma
a tornar as buscas pelo Yahoo! mais úteis e
visualmente atraentes, direcionando o
tráfego mais relevante para os seus sites
(YAHOO, 2010).

Google Rich Snippets

 O Google Rich Snippets é uma nova
abordagem de apresentação dos resultados
de pesquisa do Google (Figura 10) visando
destacar alguns dados estruturados
incorporados em páginas da web (GOEL et
al., 2009).

Características Relacionadas para Análise
dos Ferramentas de Extração Semântica

 Padrões de Anotação
 Vocabulários suportados
 Uso de vocabulários arbitrários

Comparativo
Google Rich
Sindice Yahoo! SearchMonkey
Snippets
RDFa SIM SIM SIM

Padrões de Microformatos SIM SIM SIM
Anotações eRDF NÃO NÃO SIM
Microdata SIM NÃO NÃO

hCalendar, hReview, XFN, hCard, Dublin Core, Foaf,
hProduct, hCalendar, hCard, hCalendar,
Vocabulários hCard, hReview, Rel- hReview, SIOC,
Suportados Facebook Share License, GoodRelations,
e YahooSearch hListing e Dbpedia, Freebase,
Monkey Media hResume hFeed e XFN

Uso de Vocabulários Arbitrários NÃO ??? SIM

Bibliografia
 IWS – Internet World Stats. 2009. Disponível em:
http://www.internetworldstats. com/pr/edi038.htm.
 MOURA, ANA. 2004. Introdução a Web Semântica.
http://www.mar.mil.br/sdms/Tutorial-SDMS-0051.htm
 LUIZA, Maria. O Papel de Ontologias em
Sistemas de Informação.
 Bernes-Lee T. The Semantic Web.
http://www.scientificamerican.com/article.cfm?id=the-semantic-web&page=2
 Perreira H. Microformats
http://revolucao.etc.br/archives/microformats
 Nowack B. Embedded RDF (eRDF) Parser for PHP
http://bnode.org/blog/2006/05/29/arc-embedded-rdf-erdf-parser-for-php
 POPOV, B., KIRYAKOV, A., KIRILOV, A., MANOV, D., OGNYANOFF, D.,
GORANOV, M. KIM – Semantic Annotation Platform. Disponível em: <http://
www.ontotext.com/kim/>. Acesso em 25 ago 2009

Anotacao Semântica em Documentos Não Estruturados

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (9)

Semelhante a Anotacao Semântica em Documentos Não Estruturados

Semelhante a Anotacao Semântica em Documentos Não Estruturados (20)

Último

Último (20)

Anotacao Semântica em Documentos Não Estruturados