SlideShare uma empresa Scribd logo
Anotação semântica em
              documentos não estruturados


                                                   Celso Araujo Fontes
                                                   Professoras: Maria Claudia R. Cavalcanti, D.Sc. e
                                                   Ana Maria de Carvalho Moura, Dr. Ing




SC 214202 – maio de 2010                           Instituto Militar de Engenharia
Sistemas de Banco de Dados, Profa. Maria Claudia   Curso de Mestrado em Sistemas e Computação
Introdução

   Existem hoje bilhões de documentos na Web e
    ainda milhões de páginas em intranets, sendo
    acessados por 1,5 bilhões de usuários no mundo [1].
   A maior parte destas informações é construída
    apenas para o consumo humano.
   Vem à tona a necessidade do gerenciamento desse
    conteúdo, no que diz respeito à dificuldade na
    busca, organização, acesso e manutenção das
    informações.
Problemas da Web Atual

   Busca da Informação
   Problema de “precisão” das atuais
    ferramentas de pesquisa
    –   Navegação através de links e uso de palavras
        chaves p/ busca
    –   Problemas p/ identificar, descrever e localizar
        recursos de forma mais eficiente [2]
Problemas da Web Atual




   A falta de meta dados na web inibe um
    processamento por máquina mais
    inteligente.
Metadados

   Metadados permitem descrever informações,
    auxiliando na identificação, localização e
    gerenciamento dos dados (BONIFACIO,
    2002).
Ontologias
   Segundo Grubber (GRUBBER, 1992), uma ontologia
    é uma especificação explícita de uma conceituação.
    A conceituação é uma abstração simplificada do
    domínio em que desejamos representar para algum
    propósito.
   No campo da Filosofia, as ontologias têm sido
    utilizadas para tentar descrever domínios naturais
    (as coisas naturais do mundo) e a existência dos
    seres e coisas em si, desvendando, desta forma, o
    significado das coisas no mundo (LIMA e
    SCHWABE, 2004).
Web Semântica

   A web semântica é “uma extensão da web
    atual, em que a informação é dada com um
    significado bem definido, permitindo que
    computadores e pessoas trabalhem em
    cooperação”. [Bernes-Lee, 2001]
Web Semântica e Ontologias

   Evolução natural de esforços anteriores
    –   Metadados na Web
    –   Padrões de Metadados
    –   Arquiteturas de Metadados
    –   RDF e RDFS foram os precursores das ontologias na Web
    –   Rápida evolução das demais iniciativas
            DAML
            OIL
            DAML+OIL
            OWL
            OWL2
Web Semântica – Representação do
Conhecimento

   RDF
   RDFS
   OWL
   OWL2
O que significa chamar uma tecnologia
de “semântica” ?

   Pretende:
    –   Representar conhecimento
    –   Compartilhar um entendimento comum em relação ao
        significado
    –   Ser apropriada para a ligação de recursos sob diferentes
        esquemas de representação
    –   Estabelecer associações entre os itens que não estão
        explicitas
    –   Apoiar inferência sobre o conhecimento para gerar mais
        conhecimento
Problema

   Dados estruturados para interpretação por
    máquina normalmente são distribuídos num
    formato distinto e separado do conteúdo
    original e a correspondência entre eles é
    bastante limitada (ADIDA et al., 2008).
   RDF, OWL e outros formatos XML são
    complexos para interpretação da maioria das
    pessoas
Solução

   Visando incorporar metadados ricos a um
    documento e manter o seu conteúdo visual
    legível ao ser humano, foram propostos
    padrões de anotação semântica.
    –   Objetivo: utilizar um conjunto de descritores,
        relacionados a um vocabulário, para “anotar”
        informações de um documento da internet,
        expressando o significado do conteúdo neles
        descritos.
Anotação Semântica

   “Esquema específico para geração e uso de
    metadados, possibilitando novos métodos de
    acesso a informação” [Popov et al., 2003].
   “A anotação semântica de um documento
    descreve o seu conteúdo pela associação a
    conceitos e instâncias descritos na
    ontologia” [Eller, 2008].
Anotação Semântica
   Na figura abaixo, podem ser observadas as anotações semânticas
    referentes a um texto simples. As entidades presentes no texto são
    associadas à sua definição semântica:




                                                            Exemplo de marcação
                                                            semântica. Fonte: [7]
                                                            com adaptações
Características Relacionadas para Análise
   dos Padrões de Anotação Semântica

   Uso de vocabulários customizados
   DRY
   Compatibilidade com HTML
   Compatibilidade com XHTML
   Utilização somente de atributos nativos do HTML e XHTML
   Suporte ao Blank Node
   Utilização de namespaces
   Suporte a Literal simples
   Suporte a Literal XML
   Suporte à Literal tipada
   Suporte a CURIE
   Referência a nodos não descendentes
Microformat

   É um conjunto limitado de especificações utilizado
    para descrever informações em documentos web.
    [PEREIRA, 2009]
   Suas especificações ou vocabulários se dividem em
    duas categorias:
    –   Padrões aceitos: validados pela comunidade e utilizados
        conforme descrito nas especificações;
    –   Propostas emergentes: projetos que se encontram em
        processo de desenvolvimento, estando suas
        especificações sujeitam a alterações até sua aceitação final
        (RAMOS et al., 2009).
Microformat (Exemplo)

<div class="vcard">
     <span class="given-name">Celso
  Fontes</span>trabalha no
    <span class="org">Detran RJ</span>
</div>

                                               “Celso
                                given-name    Fontes”
                      _vcard
                                 org
                                             “Detran RJ”
Microformat

   Vantagens
    –   Simplicidade
    –   Popularidade (Twitter, Facebook, Flickr...)
    –   Utiliza atributos nativos do HTML
   Desvantagens
    –   Restrito a um pequeno número de vocabulários
    –   Não suporta o HTML5 100%
eRDF (Embedded RDF)

   Baseado em alguns princípios do
    Microformat, porém permite a anotação a
    utilização vocabulários arbitrários em suas
    anotações semânticas [Nowack, 2005]
eRDF (Exemplo)

<link rel="schema.foaf" href="http://xmlns.com/foaf/0.1/" />
<p id="celso" class="-foaf-Person">
   <span class="foaf-name">Celso Araujo</span> estuda
       anotações
</p>
                                  pe    foaf:Person
                           rdf:ty

             #celso      foaf-n
                               ame
                                       “Celso Araujo”
eRDF

   Vantagens
    –   Permite a utilização de vocabulários arbitrários
   Desvantagens
    –   Não possui suporte explícito a recursos anônimos
        (Blank Nodes)
    –   Não possui suporte a literal XML e Tipada
RDFa (Resource Description Framework – in – attributes)

   Recomendação da W3C para anotação
    semântica em documentos XHMTL 1.1
    [W3C, 2008].
   Definido como “A collection of attributes and
    processing rules for extending XHTML to
    support RDF”
RDFa

<div typeof="foaf:Person" xmlns:foaf="http://xmlns.com/foaf/0.1/">
 Informações sobre
  <span property="foaf:name">Celso</span>
<div />



                                           ame      “Celso Araujo”
                                     foaf:n

               _blanknode1             rdf:typeOf
                                                        foaf:Person
RDFa

   Vantagens
    –   Blank Nodes
    –   CURIEs
    –   Suporte a literal XML e Tipada
   Desvantagens
    –   Adição de novos elementos ao XHMTL (about,
        property, resource, datatype, typeof)
    –   Suporte apenas ao XHTML 1.1 (suporte ao HTML
        encontra-se em fase de rascunho)
Microdata

   Padrão da W3C para anotação semântica
    em documentos HTML5 [W3C, 2008].
   Esta especificação é resultado das
    investigações de Ian Hickson sobre os
    problemas que o RDFa consegue resolver
    em contrapartida a sua complexidade
    (STUDHOLME, 2010).
Microdata (Exemplo)
<div itemscope itemref="a b"></div>
<p id="a"> Meu nome é: <span itemprop="name">Celso</span>
</p>. Sou aluno da professora
<div id=“MariaClaudia" itemprop=“alunoDe" itemscope>
     <span itemprop="name">Maria</span>,
     Também conhecida como:
     <span itemprop=“nickname">Yoko</span>
</div>

                                      “Celso Araujo”
                             name                             “Yoko”

         _blanknode1                              nickname
                       alunoDe
                                 #MariaClaudia         name   “Maria”
Microdata

   Vantagens
    –   Mais simples que o RDFa
    –   Flexibilidade para referência entre nodos

   Desvantagens
    –   Imaturo (poucas ferramentas, exemplos etc…)
Comparativo

                                             Microformatos   eRDF   RDFa      Microdata


Uso de vocabulários customizados             NÃO*            SIM    SIM       SIM
DRY                                          SIM             SIM    SIM       SIM
Compatibilidade com HTML                     SIM             SIM    SIM**     SIM***
Compatibilidade com XHTML                    SIM             SIM    SIM****   SIM
Utilização somente de atributos nativos do   SIM             SIM    NÃO       NÃO***
HTML e XHTML
Suporte ao Blank Node                        NÃO             NÃO    SIM       SIM
Utilização de namespaces                     NÃO             SIM    SIM       SIM
Suporte a Literal simples                    SIM             SIM    SIM       SIM
Suporte a Literal XML                        NÃO             NÃO    SIM       NÃO
Suporte à Literal tipada                     SIM             NÃO    SIM       SIM
Suporte a CURIE                              NÃO             NÃO    SIM       NÃO
Referência a nodos não filho                 NÃO             NÃO    NÃO       SIM
Ferramentas de Anotação Semântica

   São sistemas que provêem anotação
    semântica sobre um conteúdo qualquer com
    o auxílio de um vocabulário através de
    extração automática, sugestões de
    anotações ou interfaces gráficas para a
    anotação manual (SEMANTICWEB, 2008).
Ferramentas de Anotação Semântica

   Annotea
   GATE
   KIM
   OpenCalais
   Zemanta
   SMORE
   Ontos
   TextWise
Comparativo
             Tipo         Represent   Armazenamento da Anotação    Referência com o   Referência entre termo e   Entrada        de   Plataforma
                          ação da                                  Vocabulário        Anotação                   Vocabulários
                          Anotação                                                                               Arbitrários


Annotea      Manual       Não         RDF/XML                      Xpointer           SIM                        SIM                 Desktop
                          intrusiva

GATE         Híbrida      Híbrida     Banco de dados e XML         URIS               SIM                        SIM                 Desktop

KIM          Automática   Não                                                         SIM*                       SIM                 Híbrida
                          intrusiva



OpenCalais   Automática   Não         RDF/XML, JSON,               URIS               SIM                        NÃO                 Web
                          intrusiva   Microformat e SimpleFormat

Zemanta      Automática   Não         XML, JSON,      WNJSON,      URL                NÃO                        NÃO                 Web
                          intrusiva   RDF/XML

SMORE        Manual       Não         RDF/XML                      URIS               NÃO                        SIM                 Desktop
                          intrusiva

Ontos        Automática   Não         JSON                         URIS               NÃO                        SIM***              Web
                          intrusiva
TextWise     Automática   Não         JSON e XML                   URIS               NÃO                        NÃO                 Web
                          intrusiva
Ferramentas de Extração Semântica

   Ferramentas capazes de indexar metadados
    contidos em ontologias ou documentos com
    anotações semânticas.
   Também conhecidas como ferramentas de
    “busca semântica”
Sindice

   Sindice (Semantic Web Index) é uma
    ferramenta de busca semântica que coleta
    dados de documentos RDF e de páginas
    web com anotações no padrão
    microformatos ou RDFa.
Yahoo Search Monkey

   SearchMonkey é um serviço do Yahoo! que
    permite desenvolvedores e proprietários de
    sites utilizarem dados estruturados de forma
    a tornar as buscas pelo Yahoo! mais úteis e
    visualmente atraentes, direcionando o
    tráfego mais relevante para os seus sites
    (YAHOO, 2010).
Google Rich Snippets

   O Google Rich Snippets é uma nova
    abordagem de apresentação dos resultados
    de pesquisa do Google (Figura 10) visando
    destacar alguns dados estruturados
    incorporados em páginas da web (GOEL et
    al., 2009).
Características Relacionadas para Análise
dos Ferramentas de Extração Semântica

   Padrões de Anotação
   Vocabulários suportados
   Uso de vocabulários arbitrários
Comparativo
                                       Google Rich
                                                            Sindice        Yahoo! SearchMonkey
                                          Snippets
                         RDFa              SIM               SIM                  SIM

Padrões de         Microformatos           SIM               SIM                  SIM
  Anotações              eRDF             NÃO                NÃO                  SIM
                      Microdata            SIM               NÃO                  NÃO


                                    hCalendar, hReview,   XFN, hCard,       Dublin Core, Foaf,
                                            hProduct,       hCalendar,        hCard, hCalendar,
          Vocabulários                       hCard,        hReview, Rel-       hReview, SIOC,
           Suportados                    Facebook Share       License,         GoodRelations,
                                         e YahooSearch       hListing e       Dbpedia, Freebase,
                                         Monkey Media        hResume             hFeed e XFN


  Uso de Vocabulários Arbitrários         NÃO                 ???                 SIM
Bibliografia
   IWS – Internet World Stats. 2009. Disponível em:
    http://www.internetworldstats. com/pr/edi038.htm.
   MOURA, ANA. 2004. Introdução a Web Semântica.
    http://www.mar.mil.br/sdms/Tutorial-SDMS-0051.htm
   LUIZA, Maria. O Papel de Ontologias em
    Sistemas de Informação.
   Bernes-Lee T. The Semantic Web.
    http://www.scientificamerican.com/article.cfm?id=the-semantic-web&page=2
   Perreira H. Microformats
    http://revolucao.etc.br/archives/microformats
   Nowack B. Embedded RDF (eRDF) Parser for PHP
    http://bnode.org/blog/2006/05/29/arc-embedded-rdf-erdf-parser-for-php
   POPOV, B., KIRYAKOV, A., KIRILOV, A., MANOV, D., OGNYANOFF, D.,
    GORANOV, M. KIM – Semantic Annotation Platform. Disponível em: <http://
    www.ontotext.com/kim/>. Acesso em 25 ago 2009

Mais conteúdo relacionado

Destaque

EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA
EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICAEXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA
EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA
Celso Fontes
 
Integrando a Web Social e a Web Semântica com PHP
Integrando a Web Social e a Web Semântica com PHPIntegrando a Web Social e a Web Semântica com PHP
Integrando a Web Social e a Web Semântica com PHP
Otávio Calaça Xavier
 
Conteúdo básico de lingua portuguesa
Conteúdo básico de lingua portuguesaConteúdo básico de lingua portuguesa
Conteúdo básico de lingua portuguesaLuiz Castro
 
português instrumental
  português instrumental  português instrumental
português instrumental
Jhosafá de Kastro
 
Portugues instrumental ifes
Portugues instrumental ifesPortugues instrumental ifes
Portugues instrumental ifesMarli Santos
 
Conjunções e Preposições
Conjunções e PreposiçõesConjunções e Preposições
Conjunções e Preposições
Robson Santos
 
Português instrumental I
Português instrumental IPortuguês instrumental I
Português instrumental I
Sinara Lustosa
 

Destaque (9)

EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA
EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICAEXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA
EXPLORANDO INFERÊNCIA EM UM SISTEMA DE ANOTAÇÃO SEMÂNTICA
 
Integrando a Web Social e a Web Semântica com PHP
Integrando a Web Social e a Web Semântica com PHPIntegrando a Web Social e a Web Semântica com PHP
Integrando a Web Social e a Web Semântica com PHP
 
Conteúdo básico de lingua portuguesa
Conteúdo básico de lingua portuguesaConteúdo básico de lingua portuguesa
Conteúdo básico de lingua portuguesa
 
Atividades portugues descritores (1)
Atividades portugues descritores (1)Atividades portugues descritores (1)
Atividades portugues descritores (1)
 
português instrumental
  português instrumental  português instrumental
português instrumental
 
Portugues instrumental ifes
Portugues instrumental ifesPortugues instrumental ifes
Portugues instrumental ifes
 
Plano de portugues
Plano de portuguesPlano de portugues
Plano de portugues
 
Conjunções e Preposições
Conjunções e PreposiçõesConjunções e Preposições
Conjunções e Preposições
 
Português instrumental I
Português instrumental IPortuguês instrumental I
Português instrumental I
 

Semelhante a Anotacao Semântica em Documentos Não Estruturados

Web Semântica no Domínio Bibliográfico
Web Semântica no Domínio BibliográficoWeb Semântica no Domínio Bibliográfico
Web Semântica no Domínio BibliográficoUNESP
 
Linked Data no domínio bibliográfico: vocabulários para a publicação de dado...
Linked Data no domínio bibliográfico: vocabulários para a publicação de dado...Linked Data no domínio bibliográfico: vocabulários para a publicação de dado...
Linked Data no domínio bibliográfico: vocabulários para a publicação de dado...
Fabrício Silva Assumpção
 
Anotação Semântica de Conteúdo Web Utilizando Microformatos e RDFa
Anotação Semântica de Conteúdo Web Utilizando Microformatos e RDFaAnotação Semântica de Conteúdo Web Utilizando Microformatos e RDFa
Anotação Semântica de Conteúdo Web Utilizando Microformatos e RDFa
Luiz Matos
 
Metadados: dados a respeito de dados
Metadados: dados a respeito de dadosMetadados: dados a respeito de dados
Metadados: dados a respeito de dados
Miguel Angel Mardero Arellano
 
Arquitetura: XML + RDF ate WebSemantica
Arquitetura: XML + RDF ate WebSemanticaArquitetura: XML + RDF ate WebSemantica
Arquitetura: XML + RDF ate WebSemanticaSergio Crespo
 
Palestra Dia da Liberdade dos Documentos - 2011-03-30
Palestra Dia da Liberdade dos Documentos - 2011-03-30Palestra Dia da Liberdade dos Documentos - 2011-03-30
Palestra Dia da Liberdade dos Documentos - 2011-03-30
UEPA
 
Banco de dados_orientado_a_objetos
Banco de dados_orientado_a_objetosBanco de dados_orientado_a_objetos
Banco de dados_orientado_a_objetos
Fábio José da Silva
 
Microformats e Web Semântica, transformando seu site para web 3.0 - Road Show...
Microformats e Web Semântica, transformando seu site para web 3.0 - Road Show...Microformats e Web Semântica, transformando seu site para web 3.0 - Road Show...
Microformats e Web Semântica, transformando seu site para web 3.0 - Road Show...
Renato Bongiorno Bonfanti
 
Descrição de recursos em wikis semânticos
Descrição de recursos em wikis semânticosDescrição de recursos em wikis semânticos
Descrição de recursos em wikis semânticos
Jaider Andrade Ferreira
 
Web 3.0 - A Semântica na Rede
Web 3.0 - A Semântica na RedeWeb 3.0 - A Semântica na Rede
Web 3.0 - A Semântica na Rede
Elvis Fusco
 
Perspectivas da web semântica para a biblioteconomia
Perspectivas da web semântica para a biblioteconomiaPerspectivas da web semântica para a biblioteconomia
Perspectivas da web semântica para a biblioteconomia
Naira Michelle Alves Pereira
 
Modelo orientado a objetos
Modelo orientado a objetosModelo orientado a objetos
Modelo orientado a objetosDaiana de Ávila
 
Metadados com XML
Metadados com XMLMetadados com XML
Metadados com XML
Paulo Loncarovich
 
Alinguagem SQL no mundo NOSQL
Alinguagem SQL no mundo NOSQLAlinguagem SQL no mundo NOSQL
Alinguagem SQL no mundo NOSQL
pichiliani
 
Web Semântica: Conceitos e Tecnologias
Web Semântica: Conceitos e TecnologiasWeb Semântica: Conceitos e Tecnologias
Web Semântica: Conceitos e Tecnologias
sergiocrespo
 
OWL - Web Ontology Languages
OWL - Web Ontology LanguagesOWL - Web Ontology Languages
OWL - Web Ontology LanguagesNeilor Caldeira
 

Semelhante a Anotacao Semântica em Documentos Não Estruturados (20)

Web Semântica no Domínio Bibliográfico
Web Semântica no Domínio BibliográficoWeb Semântica no Domínio Bibliográfico
Web Semântica no Domínio Bibliográfico
 
Tecnologias web x
Tecnologias web xTecnologias web x
Tecnologias web x
 
Linked Data no domínio bibliográfico: vocabulários para a publicação de dado...
Linked Data no domínio bibliográfico: vocabulários para a publicação de dado...Linked Data no domínio bibliográfico: vocabulários para a publicação de dado...
Linked Data no domínio bibliográfico: vocabulários para a publicação de dado...
 
Anotação Semântica de Conteúdo Web Utilizando Microformatos e RDFa
Anotação Semântica de Conteúdo Web Utilizando Microformatos e RDFaAnotação Semântica de Conteúdo Web Utilizando Microformatos e RDFa
Anotação Semântica de Conteúdo Web Utilizando Microformatos e RDFa
 
Metadados: dados a respeito de dados
Metadados: dados a respeito de dadosMetadados: dados a respeito de dados
Metadados: dados a respeito de dados
 
Web x.0 rdf
Web x.0 rdfWeb x.0 rdf
Web x.0 rdf
 
Palestra Introdução a Linked Data
Palestra Introdução a Linked DataPalestra Introdução a Linked Data
Palestra Introdução a Linked Data
 
Arquitetura: XML + RDF ate WebSemantica
Arquitetura: XML + RDF ate WebSemanticaArquitetura: XML + RDF ate WebSemantica
Arquitetura: XML + RDF ate WebSemantica
 
Palestra Dia da Liberdade dos Documentos - 2011-03-30
Palestra Dia da Liberdade dos Documentos - 2011-03-30Palestra Dia da Liberdade dos Documentos - 2011-03-30
Palestra Dia da Liberdade dos Documentos - 2011-03-30
 
Banco de dados_orientado_a_objetos
Banco de dados_orientado_a_objetosBanco de dados_orientado_a_objetos
Banco de dados_orientado_a_objetos
 
Microformats e Web Semântica, transformando seu site para web 3.0 - Road Show...
Microformats e Web Semântica, transformando seu site para web 3.0 - Road Show...Microformats e Web Semântica, transformando seu site para web 3.0 - Road Show...
Microformats e Web Semântica, transformando seu site para web 3.0 - Road Show...
 
Descrição de recursos em wikis semânticos
Descrição de recursos em wikis semânticosDescrição de recursos em wikis semânticos
Descrição de recursos em wikis semânticos
 
Web 3.0 - A Semântica na Rede
Web 3.0 - A Semântica na RedeWeb 3.0 - A Semântica na Rede
Web 3.0 - A Semântica na Rede
 
Perspectivas da web semântica para a biblioteconomia
Perspectivas da web semântica para a biblioteconomiaPerspectivas da web semântica para a biblioteconomia
Perspectivas da web semântica para a biblioteconomia
 
Modelo orientado a objetos
Modelo orientado a objetosModelo orientado a objetos
Modelo orientado a objetos
 
Metadados com XML
Metadados com XMLMetadados com XML
Metadados com XML
 
Alinguagem SQL no mundo NOSQL
Alinguagem SQL no mundo NOSQLAlinguagem SQL no mundo NOSQL
Alinguagem SQL no mundo NOSQL
 
Resource Description Framework (RDF)
Resource Description Framework (RDF)Resource Description Framework (RDF)
Resource Description Framework (RDF)
 
Web Semântica: Conceitos e Tecnologias
Web Semântica: Conceitos e TecnologiasWeb Semântica: Conceitos e Tecnologias
Web Semântica: Conceitos e Tecnologias
 
OWL - Web Ontology Languages
OWL - Web Ontology LanguagesOWL - Web Ontology Languages
OWL - Web Ontology Languages
 

Último

proposta curricular ou plano de cursode lingua portuguesa eja anos finais ( ...
proposta curricular  ou plano de cursode lingua portuguesa eja anos finais ( ...proposta curricular  ou plano de cursode lingua portuguesa eja anos finais ( ...
proposta curricular ou plano de cursode lingua portuguesa eja anos finais ( ...
Escola Municipal Jesus Cristo
 
UFCD_8298_Cozinha criativa_índice do manual
UFCD_8298_Cozinha criativa_índice do manualUFCD_8298_Cozinha criativa_índice do manual
UFCD_8298_Cozinha criativa_índice do manual
Manuais Formação
 
MÁRTIRES DE UGANDA Convertem-se ao Cristianismo - 1885-1887.pptx
MÁRTIRES DE UGANDA Convertem-se ao Cristianismo - 1885-1887.pptxMÁRTIRES DE UGANDA Convertem-se ao Cristianismo - 1885-1887.pptx
MÁRTIRES DE UGANDA Convertem-se ao Cristianismo - 1885-1887.pptx
Martin M Flynn
 
o que está acontecendo no Rio grande do Sul
o que está acontecendo no Rio grande do Sulo que está acontecendo no Rio grande do Sul
o que está acontecendo no Rio grande do Sul
CarlaInsStaub
 
Sinais de pontuação
Sinais de pontuaçãoSinais de pontuação
Sinais de pontuação
Mary Alvarenga
 
Slides Lição 9, Central Gospel, As Bodas Do Cordeiro, 1Tr24.pptx
Slides Lição 9, Central Gospel, As Bodas Do Cordeiro, 1Tr24.pptxSlides Lição 9, Central Gospel, As Bodas Do Cordeiro, 1Tr24.pptx
Slides Lição 9, Central Gospel, As Bodas Do Cordeiro, 1Tr24.pptx
LuizHenriquedeAlmeid6
 
Fato X Opinião (Língua Portuguesa 9º Ano).pptx
Fato X Opinião (Língua Portuguesa 9º Ano).pptxFato X Opinião (Língua Portuguesa 9º Ano).pptx
Fato X Opinião (Língua Portuguesa 9º Ano).pptx
MariaFatima425285
 
2021-7o-ano-PPt-Oracoes-coordenadas..pptx
2021-7o-ano-PPt-Oracoes-coordenadas..pptx2021-7o-ano-PPt-Oracoes-coordenadas..pptx
2021-7o-ano-PPt-Oracoes-coordenadas..pptx
BarbaraBeatriz15
 
Atividade - Letra da música "Tem Que Sorrir" - Jorge e Mateus
Atividade - Letra da música "Tem Que Sorrir"  - Jorge e MateusAtividade - Letra da música "Tem Que Sorrir"  - Jorge e Mateus
Atividade - Letra da música "Tem Que Sorrir" - Jorge e Mateus
Mary Alvarenga
 
A nossa mini semana 2706 2906 Juliana.pptx
A nossa mini semana 2706 2906 Juliana.pptxA nossa mini semana 2706 2906 Juliana.pptx
A nossa mini semana 2706 2906 Juliana.pptx
juserpa07
 
Aula 3- 6º HIS - As origens da humanidade, seus deslocamentos e os processos ...
Aula 3- 6º HIS - As origens da humanidade, seus deslocamentos e os processos ...Aula 3- 6º HIS - As origens da humanidade, seus deslocamentos e os processos ...
Aula 3- 6º HIS - As origens da humanidade, seus deslocamentos e os processos ...
Luana Neres
 
DeClara n.º 76 MAIO 2024, o jornal digital do Agrupamento de Escolas Clara de...
DeClara n.º 76 MAIO 2024, o jornal digital do Agrupamento de Escolas Clara de...DeClara n.º 76 MAIO 2024, o jornal digital do Agrupamento de Escolas Clara de...
DeClara n.º 76 MAIO 2024, o jornal digital do Agrupamento de Escolas Clara de...
IsabelPereira2010
 
Química orgânica e as funções organicas.pptx
Química orgânica e as funções organicas.pptxQuímica orgânica e as funções organicas.pptx
Química orgânica e as funções organicas.pptx
KeilianeOliveira3
 
Roteiro para análise do Livro Didático .pptx
Roteiro para análise do Livro Didático .pptxRoteiro para análise do Livro Didático .pptx
Roteiro para análise do Livro Didático .pptx
pamellaaraujo10
 
Projeto aLeR+ o Ambiente - Os animais são nossos amigos.pdf
Projeto aLeR+ o Ambiente - Os animais são nossos amigos.pdfProjeto aLeR+ o Ambiente - Os animais são nossos amigos.pdf
Projeto aLeR+ o Ambiente - Os animais são nossos amigos.pdf
Bibliotecas Infante D. Henrique
 
Arundhati Roy - O Deus das Pequenas Coisas - ÍNDIA.pdf
Arundhati Roy - O Deus das Pequenas Coisas - ÍNDIA.pdfArundhati Roy - O Deus das Pequenas Coisas - ÍNDIA.pdf
Arundhati Roy - O Deus das Pequenas Coisas - ÍNDIA.pdf
Ana Da Silva Ponce
 
Sócrates e os sofistas - apresentação de slides
Sócrates e os sofistas - apresentação de slidesSócrates e os sofistas - apresentação de slides
Sócrates e os sofistas - apresentação de slides
jbellas2
 
Slides Lição 10, Central Gospel, A Batalha Do Armagedom, 1Tr24.pptx
Slides Lição 10, Central Gospel, A Batalha Do Armagedom, 1Tr24.pptxSlides Lição 10, Central Gospel, A Batalha Do Armagedom, 1Tr24.pptx
Slides Lição 10, Central Gospel, A Batalha Do Armagedom, 1Tr24.pptx
LuizHenriquedeAlmeid6
 
Caça-palavras - ortografia S, SS, X, C e Z
Caça-palavras - ortografia  S, SS, X, C e ZCaça-palavras - ortografia  S, SS, X, C e Z
Caça-palavras - ortografia S, SS, X, C e Z
Mary Alvarenga
 
PROPOSTA CURRICULAR EDUCACAO FISICA.docx
PROPOSTA CURRICULAR  EDUCACAO FISICA.docxPROPOSTA CURRICULAR  EDUCACAO FISICA.docx
PROPOSTA CURRICULAR EDUCACAO FISICA.docx
Escola Municipal Jesus Cristo
 

Último (20)

proposta curricular ou plano de cursode lingua portuguesa eja anos finais ( ...
proposta curricular  ou plano de cursode lingua portuguesa eja anos finais ( ...proposta curricular  ou plano de cursode lingua portuguesa eja anos finais ( ...
proposta curricular ou plano de cursode lingua portuguesa eja anos finais ( ...
 
UFCD_8298_Cozinha criativa_índice do manual
UFCD_8298_Cozinha criativa_índice do manualUFCD_8298_Cozinha criativa_índice do manual
UFCD_8298_Cozinha criativa_índice do manual
 
MÁRTIRES DE UGANDA Convertem-se ao Cristianismo - 1885-1887.pptx
MÁRTIRES DE UGANDA Convertem-se ao Cristianismo - 1885-1887.pptxMÁRTIRES DE UGANDA Convertem-se ao Cristianismo - 1885-1887.pptx
MÁRTIRES DE UGANDA Convertem-se ao Cristianismo - 1885-1887.pptx
 
o que está acontecendo no Rio grande do Sul
o que está acontecendo no Rio grande do Sulo que está acontecendo no Rio grande do Sul
o que está acontecendo no Rio grande do Sul
 
Sinais de pontuação
Sinais de pontuaçãoSinais de pontuação
Sinais de pontuação
 
Slides Lição 9, Central Gospel, As Bodas Do Cordeiro, 1Tr24.pptx
Slides Lição 9, Central Gospel, As Bodas Do Cordeiro, 1Tr24.pptxSlides Lição 9, Central Gospel, As Bodas Do Cordeiro, 1Tr24.pptx
Slides Lição 9, Central Gospel, As Bodas Do Cordeiro, 1Tr24.pptx
 
Fato X Opinião (Língua Portuguesa 9º Ano).pptx
Fato X Opinião (Língua Portuguesa 9º Ano).pptxFato X Opinião (Língua Portuguesa 9º Ano).pptx
Fato X Opinião (Língua Portuguesa 9º Ano).pptx
 
2021-7o-ano-PPt-Oracoes-coordenadas..pptx
2021-7o-ano-PPt-Oracoes-coordenadas..pptx2021-7o-ano-PPt-Oracoes-coordenadas..pptx
2021-7o-ano-PPt-Oracoes-coordenadas..pptx
 
Atividade - Letra da música "Tem Que Sorrir" - Jorge e Mateus
Atividade - Letra da música "Tem Que Sorrir"  - Jorge e MateusAtividade - Letra da música "Tem Que Sorrir"  - Jorge e Mateus
Atividade - Letra da música "Tem Que Sorrir" - Jorge e Mateus
 
A nossa mini semana 2706 2906 Juliana.pptx
A nossa mini semana 2706 2906 Juliana.pptxA nossa mini semana 2706 2906 Juliana.pptx
A nossa mini semana 2706 2906 Juliana.pptx
 
Aula 3- 6º HIS - As origens da humanidade, seus deslocamentos e os processos ...
Aula 3- 6º HIS - As origens da humanidade, seus deslocamentos e os processos ...Aula 3- 6º HIS - As origens da humanidade, seus deslocamentos e os processos ...
Aula 3- 6º HIS - As origens da humanidade, seus deslocamentos e os processos ...
 
DeClara n.º 76 MAIO 2024, o jornal digital do Agrupamento de Escolas Clara de...
DeClara n.º 76 MAIO 2024, o jornal digital do Agrupamento de Escolas Clara de...DeClara n.º 76 MAIO 2024, o jornal digital do Agrupamento de Escolas Clara de...
DeClara n.º 76 MAIO 2024, o jornal digital do Agrupamento de Escolas Clara de...
 
Química orgânica e as funções organicas.pptx
Química orgânica e as funções organicas.pptxQuímica orgânica e as funções organicas.pptx
Química orgânica e as funções organicas.pptx
 
Roteiro para análise do Livro Didático .pptx
Roteiro para análise do Livro Didático .pptxRoteiro para análise do Livro Didático .pptx
Roteiro para análise do Livro Didático .pptx
 
Projeto aLeR+ o Ambiente - Os animais são nossos amigos.pdf
Projeto aLeR+ o Ambiente - Os animais são nossos amigos.pdfProjeto aLeR+ o Ambiente - Os animais são nossos amigos.pdf
Projeto aLeR+ o Ambiente - Os animais são nossos amigos.pdf
 
Arundhati Roy - O Deus das Pequenas Coisas - ÍNDIA.pdf
Arundhati Roy - O Deus das Pequenas Coisas - ÍNDIA.pdfArundhati Roy - O Deus das Pequenas Coisas - ÍNDIA.pdf
Arundhati Roy - O Deus das Pequenas Coisas - ÍNDIA.pdf
 
Sócrates e os sofistas - apresentação de slides
Sócrates e os sofistas - apresentação de slidesSócrates e os sofistas - apresentação de slides
Sócrates e os sofistas - apresentação de slides
 
Slides Lição 10, Central Gospel, A Batalha Do Armagedom, 1Tr24.pptx
Slides Lição 10, Central Gospel, A Batalha Do Armagedom, 1Tr24.pptxSlides Lição 10, Central Gospel, A Batalha Do Armagedom, 1Tr24.pptx
Slides Lição 10, Central Gospel, A Batalha Do Armagedom, 1Tr24.pptx
 
Caça-palavras - ortografia S, SS, X, C e Z
Caça-palavras - ortografia  S, SS, X, C e ZCaça-palavras - ortografia  S, SS, X, C e Z
Caça-palavras - ortografia S, SS, X, C e Z
 
PROPOSTA CURRICULAR EDUCACAO FISICA.docx
PROPOSTA CURRICULAR  EDUCACAO FISICA.docxPROPOSTA CURRICULAR  EDUCACAO FISICA.docx
PROPOSTA CURRICULAR EDUCACAO FISICA.docx
 

Anotacao Semântica em Documentos Não Estruturados

  • 1. Anotação semântica em documentos não estruturados Celso Araujo Fontes Professoras: Maria Claudia R. Cavalcanti, D.Sc. e Ana Maria de Carvalho Moura, Dr. Ing SC 214202 – maio de 2010 Instituto Militar de Engenharia Sistemas de Banco de Dados, Profa. Maria Claudia Curso de Mestrado em Sistemas e Computação
  • 2. Introdução  Existem hoje bilhões de documentos na Web e ainda milhões de páginas em intranets, sendo acessados por 1,5 bilhões de usuários no mundo [1].  A maior parte destas informações é construída apenas para o consumo humano.  Vem à tona a necessidade do gerenciamento desse conteúdo, no que diz respeito à dificuldade na busca, organização, acesso e manutenção das informações.
  • 3. Problemas da Web Atual  Busca da Informação  Problema de “precisão” das atuais ferramentas de pesquisa – Navegação através de links e uso de palavras chaves p/ busca – Problemas p/ identificar, descrever e localizar recursos de forma mais eficiente [2]
  • 4. Problemas da Web Atual  A falta de meta dados na web inibe um processamento por máquina mais inteligente.
  • 5. Metadados  Metadados permitem descrever informações, auxiliando na identificação, localização e gerenciamento dos dados (BONIFACIO, 2002).
  • 6. Ontologias  Segundo Grubber (GRUBBER, 1992), uma ontologia é uma especificação explícita de uma conceituação. A conceituação é uma abstração simplificada do domínio em que desejamos representar para algum propósito.  No campo da Filosofia, as ontologias têm sido utilizadas para tentar descrever domínios naturais (as coisas naturais do mundo) e a existência dos seres e coisas em si, desvendando, desta forma, o significado das coisas no mundo (LIMA e SCHWABE, 2004).
  • 7. Web Semântica  A web semântica é “uma extensão da web atual, em que a informação é dada com um significado bem definido, permitindo que computadores e pessoas trabalhem em cooperação”. [Bernes-Lee, 2001]
  • 8. Web Semântica e Ontologias  Evolução natural de esforços anteriores – Metadados na Web – Padrões de Metadados – Arquiteturas de Metadados – RDF e RDFS foram os precursores das ontologias na Web – Rápida evolução das demais iniciativas  DAML  OIL  DAML+OIL  OWL  OWL2
  • 9. Web Semântica – Representação do Conhecimento  RDF  RDFS  OWL  OWL2
  • 10. O que significa chamar uma tecnologia de “semântica” ?  Pretende: – Representar conhecimento – Compartilhar um entendimento comum em relação ao significado – Ser apropriada para a ligação de recursos sob diferentes esquemas de representação – Estabelecer associações entre os itens que não estão explicitas – Apoiar inferência sobre o conhecimento para gerar mais conhecimento
  • 11. Problema  Dados estruturados para interpretação por máquina normalmente são distribuídos num formato distinto e separado do conteúdo original e a correspondência entre eles é bastante limitada (ADIDA et al., 2008).  RDF, OWL e outros formatos XML são complexos para interpretação da maioria das pessoas
  • 12. Solução  Visando incorporar metadados ricos a um documento e manter o seu conteúdo visual legível ao ser humano, foram propostos padrões de anotação semântica. – Objetivo: utilizar um conjunto de descritores, relacionados a um vocabulário, para “anotar” informações de um documento da internet, expressando o significado do conteúdo neles descritos.
  • 13. Anotação Semântica  “Esquema específico para geração e uso de metadados, possibilitando novos métodos de acesso a informação” [Popov et al., 2003].  “A anotação semântica de um documento descreve o seu conteúdo pela associação a conceitos e instâncias descritos na ontologia” [Eller, 2008].
  • 14. Anotação Semântica  Na figura abaixo, podem ser observadas as anotações semânticas referentes a um texto simples. As entidades presentes no texto são associadas à sua definição semântica: Exemplo de marcação semântica. Fonte: [7] com adaptações
  • 15. Características Relacionadas para Análise dos Padrões de Anotação Semântica  Uso de vocabulários customizados  DRY  Compatibilidade com HTML  Compatibilidade com XHTML  Utilização somente de atributos nativos do HTML e XHTML  Suporte ao Blank Node  Utilização de namespaces  Suporte a Literal simples  Suporte a Literal XML  Suporte à Literal tipada  Suporte a CURIE  Referência a nodos não descendentes
  • 16. Microformat  É um conjunto limitado de especificações utilizado para descrever informações em documentos web. [PEREIRA, 2009]  Suas especificações ou vocabulários se dividem em duas categorias: – Padrões aceitos: validados pela comunidade e utilizados conforme descrito nas especificações; – Propostas emergentes: projetos que se encontram em processo de desenvolvimento, estando suas especificações sujeitam a alterações até sua aceitação final (RAMOS et al., 2009).
  • 17. Microformat (Exemplo) <div class="vcard"> <span class="given-name">Celso Fontes</span>trabalha no <span class="org">Detran RJ</span> </div> “Celso given-name Fontes” _vcard org “Detran RJ”
  • 18. Microformat  Vantagens – Simplicidade – Popularidade (Twitter, Facebook, Flickr...) – Utiliza atributos nativos do HTML  Desvantagens – Restrito a um pequeno número de vocabulários – Não suporta o HTML5 100%
  • 19. eRDF (Embedded RDF)  Baseado em alguns princípios do Microformat, porém permite a anotação a utilização vocabulários arbitrários em suas anotações semânticas [Nowack, 2005]
  • 20. eRDF (Exemplo) <link rel="schema.foaf" href="http://xmlns.com/foaf/0.1/" /> <p id="celso" class="-foaf-Person"> <span class="foaf-name">Celso Araujo</span> estuda anotações </p> pe foaf:Person rdf:ty #celso foaf-n ame “Celso Araujo”
  • 21. eRDF  Vantagens – Permite a utilização de vocabulários arbitrários  Desvantagens – Não possui suporte explícito a recursos anônimos (Blank Nodes) – Não possui suporte a literal XML e Tipada
  • 22. RDFa (Resource Description Framework – in – attributes)  Recomendação da W3C para anotação semântica em documentos XHMTL 1.1 [W3C, 2008].  Definido como “A collection of attributes and processing rules for extending XHTML to support RDF”
  • 23. RDFa <div typeof="foaf:Person" xmlns:foaf="http://xmlns.com/foaf/0.1/"> Informações sobre <span property="foaf:name">Celso</span> <div /> ame “Celso Araujo” foaf:n _blanknode1 rdf:typeOf foaf:Person
  • 24. RDFa  Vantagens – Blank Nodes – CURIEs – Suporte a literal XML e Tipada  Desvantagens – Adição de novos elementos ao XHMTL (about, property, resource, datatype, typeof) – Suporte apenas ao XHTML 1.1 (suporte ao HTML encontra-se em fase de rascunho)
  • 25. Microdata  Padrão da W3C para anotação semântica em documentos HTML5 [W3C, 2008].  Esta especificação é resultado das investigações de Ian Hickson sobre os problemas que o RDFa consegue resolver em contrapartida a sua complexidade (STUDHOLME, 2010).
  • 26. Microdata (Exemplo) <div itemscope itemref="a b"></div> <p id="a"> Meu nome é: <span itemprop="name">Celso</span> </p>. Sou aluno da professora <div id=“MariaClaudia" itemprop=“alunoDe" itemscope> <span itemprop="name">Maria</span>, Também conhecida como: <span itemprop=“nickname">Yoko</span> </div> “Celso Araujo” name “Yoko” _blanknode1 nickname alunoDe #MariaClaudia name “Maria”
  • 27. Microdata  Vantagens – Mais simples que o RDFa – Flexibilidade para referência entre nodos  Desvantagens – Imaturo (poucas ferramentas, exemplos etc…)
  • 28. Comparativo Microformatos eRDF RDFa Microdata Uso de vocabulários customizados NÃO* SIM SIM SIM DRY SIM SIM SIM SIM Compatibilidade com HTML SIM SIM SIM** SIM*** Compatibilidade com XHTML SIM SIM SIM**** SIM Utilização somente de atributos nativos do SIM SIM NÃO NÃO*** HTML e XHTML Suporte ao Blank Node NÃO NÃO SIM SIM Utilização de namespaces NÃO SIM SIM SIM Suporte a Literal simples SIM SIM SIM SIM Suporte a Literal XML NÃO NÃO SIM NÃO Suporte à Literal tipada SIM NÃO SIM SIM Suporte a CURIE NÃO NÃO SIM NÃO Referência a nodos não filho NÃO NÃO NÃO SIM
  • 29. Ferramentas de Anotação Semântica  São sistemas que provêem anotação semântica sobre um conteúdo qualquer com o auxílio de um vocabulário através de extração automática, sugestões de anotações ou interfaces gráficas para a anotação manual (SEMANTICWEB, 2008).
  • 30. Ferramentas de Anotação Semântica  Annotea  GATE  KIM  OpenCalais  Zemanta  SMORE  Ontos  TextWise
  • 31. Comparativo Tipo Represent Armazenamento da Anotação Referência com o Referência entre termo e Entrada de Plataforma ação da Vocabulário Anotação Vocabulários Anotação Arbitrários Annotea Manual Não RDF/XML Xpointer SIM SIM Desktop intrusiva GATE Híbrida Híbrida Banco de dados e XML URIS SIM SIM Desktop KIM Automática Não SIM* SIM Híbrida intrusiva OpenCalais Automática Não RDF/XML, JSON, URIS SIM NÃO Web intrusiva Microformat e SimpleFormat Zemanta Automática Não XML, JSON, WNJSON, URL NÃO NÃO Web intrusiva RDF/XML SMORE Manual Não RDF/XML URIS NÃO SIM Desktop intrusiva Ontos Automática Não JSON URIS NÃO SIM*** Web intrusiva TextWise Automática Não JSON e XML URIS NÃO NÃO Web intrusiva
  • 32. Ferramentas de Extração Semântica  Ferramentas capazes de indexar metadados contidos em ontologias ou documentos com anotações semânticas.  Também conhecidas como ferramentas de “busca semântica”
  • 33. Sindice  Sindice (Semantic Web Index) é uma ferramenta de busca semântica que coleta dados de documentos RDF e de páginas web com anotações no padrão microformatos ou RDFa.
  • 34. Yahoo Search Monkey  SearchMonkey é um serviço do Yahoo! que permite desenvolvedores e proprietários de sites utilizarem dados estruturados de forma a tornar as buscas pelo Yahoo! mais úteis e visualmente atraentes, direcionando o tráfego mais relevante para os seus sites (YAHOO, 2010).
  • 35. Google Rich Snippets  O Google Rich Snippets é uma nova abordagem de apresentação dos resultados de pesquisa do Google (Figura 10) visando destacar alguns dados estruturados incorporados em páginas da web (GOEL et al., 2009).
  • 36. Características Relacionadas para Análise dos Ferramentas de Extração Semântica  Padrões de Anotação  Vocabulários suportados  Uso de vocabulários arbitrários
  • 37. Comparativo Google Rich Sindice Yahoo! SearchMonkey Snippets RDFa SIM SIM SIM Padrões de Microformatos SIM SIM SIM Anotações eRDF NÃO NÃO SIM Microdata SIM NÃO NÃO hCalendar, hReview, XFN, hCard, Dublin Core, Foaf, hProduct, hCalendar, hCard, hCalendar, Vocabulários hCard, hReview, Rel- hReview, SIOC, Suportados Facebook Share License, GoodRelations, e YahooSearch hListing e Dbpedia, Freebase, Monkey Media hResume hFeed e XFN Uso de Vocabulários Arbitrários NÃO ??? SIM
  • 38. Bibliografia  IWS – Internet World Stats. 2009. Disponível em: http://www.internetworldstats. com/pr/edi038.htm.  MOURA, ANA. 2004. Introdução a Web Semântica. http://www.mar.mil.br/sdms/Tutorial-SDMS-0051.htm  LUIZA, Maria. O Papel de Ontologias em Sistemas de Informação.  Bernes-Lee T. The Semantic Web. http://www.scientificamerican.com/article.cfm?id=the-semantic-web&page=2  Perreira H. Microformats http://revolucao.etc.br/archives/microformats  Nowack B. Embedded RDF (eRDF) Parser for PHP http://bnode.org/blog/2006/05/29/arc-embedded-rdf-erdf-parser-for-php  POPOV, B., KIRYAKOV, A., KIRILOV, A., MANOV, D., OGNYANOFF, D., GORANOV, M. KIM – Semantic Annotation Platform. Disponível em: <http:// www.ontotext.com/kim/>. Acesso em 25 ago 2009