WEB SEMÂNTICA
   Renan Oliveira
AGENDA

•   Web atual: hipertexto

•   Web semântica

•   Ontologias

•   Modelagem de dados

•   Linked Open Data
WEB ATUAL


•   Apresentação do conteúdos

•   Formatação, não significado

•   Pouca ou nenhuma estruturação
CONTEÚDO MULTIMÍDIA

•   Vários elementos na página

•   Fotos, vídeos e animações

•   Qual a relação entre eles?

•   Quem é mencionado no texto?

•   Quem, Quando, Onde...
COMO ISSO AFETA
    ALGO COMUM?
Busca por Gols do Roberto Carlos no Maracanã
NA GLOBO.COM
E... NO GOOGLE
PROBLEMAS

•   Busca feita por palavras (dados, não informações)

•   Falta de contexto (como fotos e vídeos se relacionam com o texto?)

•   Ambiguidade (qual Roberto Carlos?)

•   Pouca relevância (gol???)
MELHORIAS


•   Registrar de forma precisa

•   Organizar corretamente

•   Transmitir significado
WEB SEMÂNTICA



“I have a dream for the web in which computers become
capable of analyzing all the data on the web - the content,
links, and transactions between people and computers.”
Tim Berners-Lee
HOMEM + MÁQUINA


•   Cada um desempenha seu melhor papel

•   Homem - desambiguar, relacionar e definir regras

•   Máquina - organizar, indexar e inferir
REGISTRAR INFORMAÇÃO


•   Produtor do conteúdo

•   Sabe o que, quem, quando, onde...

•   Resolve ambiguidade
GOL DO ROBERTO CARLOS
ONTOLOGIAS



• “Uma  ontologia é um modelo de dados que representa um
 conjunto de conceitos dentro de um domínio e os
 relacionamentos entre eles” - Wikipedia
MONTAGEM

•   Identificar os indivíduos

•   Descrever seus atributos

•   Agrupar os indivíduos em classes

•   Enumerar as relações entre indivíduos

•   Definir regras sobre atributos e relações
CONTRUÇÃO DE
                    ONTOLOGIAS

•   Linguagens para definir ontologias

    •   OWL (Web Ontology Language)

    •   RDF (Resource description framework)
REPRESENTAÇÃO EM TRIPLAS
VANTAGENS
•   Modelagem natural

    •   muito próximo da orientação a objetos

•   Expressividade

    •   representa qualquer relacionamento possível

    •   restrições, cardinalidade

•   Capacidade de inferência

    •   regras sobre as classes e relacionamentos
EXIBIR INFORMAÇÃO

•   HTML e XML não são suficientes

•   Estrutura, mas não significado

    <document type="progressive rock">
    <name>Another Brick in the Wall</name>
    <author>Roger Waters</author>
    </document>
REPRESENTAÇÃO
                    ESTRUTURADA
•   “Tags” com estrutura semântica

•   Padronização dos elementos

    <music type="rock">
    <title>Another Brick in the Wall</title>
    <composer>Roger Waters</composer>
    </music>
COMO PADRONIZAR?

•   Vocabulários controlados

•   Exemplo: Dublin Core Metadata Initiative (DCMI)

    •   termos com significado bem definido:

        •   title, creator, contributor, creator, ...
OUTROS VOCABULÁRIOS
•   FOAF (Friend of a Friend)

    •   informações sobre as pessoas

    •   orginalmente usado para redes sociais

•   Core Ontology for Multimedia (COMM)

    •   informações sobre arquivos de mídia

    •   dimensões, encoding, histórico de produção
XML USANDO DUBLIN CORE

      <music type="rock">
         <dc:title>
           Another Brick in the Wall
          </dc:title>
          <dc:creator>
           Roger Waters
          </dc:creator>
      </music>
HTML + RDFA

<span property="foaf:name">
 Roger Waters
</span>
 nasceu em
<span property="foaf:dateOfBirth" content="1943-09-06"
datatype="xsd:date">
 6 de setembro de 1943
</span>
SCHEMA.ORG


•   Iniciativa Google, Bing e Yahoo!

•   Gera Rich Snippet

•   Grande melhoria em SEO.
BENEFÍCIOS


•   Significado explícito

•   Sem ambiguidades

•   Entendido por máquinas de busca
LINKED DATA

•   Referências cruzadas globais

•   Embutidas em páginas HTML

    •   RDFa, schema.org

•   Identificadores único (URIs) para conceitos

•   Bases de dados de referência
LINKED OPEN DATA CLOUD
•   Repositório de uso geral

    •   DBPedia (conceitos extraídos da Wikipedia)

    •   FreeBase

•   Repositório sobre domínios específicos

    •   GeoNames

    •   MusicBrainz

•   Novos sites com autoridade sobre o domínio
BUSCAS SEMÂNTICAS

•   Encontram e analisam meta-informação

    •   tags com RDFa, microdata

    •   repositório de triplas

•   Relacionam informações em sites diferentes

•   Exemplo: Sindice e Google*
como usamos?
globo
esporte
.com
globo
esporte
.com
globo
esporte
.com
globo
esporte
.com
globo
esporte
.com
CONHECIMENTO
        ÚNICO
     Menor risco de duplicidade dos dados
Simplificação do uso e da manutenção dos dados
       Agilidade na recuperação dos dados
cita a entidade
            Materia                     Pessoa
ONTOLOGIA
TRIPLA
                      cita a entidade
            Matéria                     Romário
CASES RELEVANTES
    Modelos de uso da
     Web Semântica
•   Best Buy

•   BBC

•   New York Times
AÇÕES REALIZADAS


•   Uso da ontologia GoodRelations

•   Adição de metadados: RDFa
RESULTADOS ALCANÇADOS


•   Tráfego originado por motores de busca: + 30%

•   Taxa de cliques no Yahoo!: + 15%

•   Aumento significativo do Google PageRank
AÇÕES REALIZADAS


•   Ontologias públicas

•   Interligação com repositórios de dados externos

•   Criação de categorias e agregadores úteis
Domínios representados
Ontologias públicas
    utilizadas
Ontologia de programas
RESULTADOS ALCANÇADOS


•   Proliferação de links relevantes: potencialização de SEO

•   Reuso das informações: menor desperdício de pessoal

•   Navegação interligada e escalável para toda a BBC
AÇÕES REALIZADAS


•   Anotação e indexação do conteúdo baseado em indivíduos

•   Ontologia pública

•   Interligação com repositórios de dados externos

•   Adição de metadados: Open Graph
NYT Index Abstract
                              ✓ Assuntos: Livestock; Goats;
Jenny Brown, owner of          Amputation; Prosthesis; Legs
Woodstock (NY) Farm Animal
Sanctuary, forms special      ✓ Organizações:Woodstock Farm

bond with Albie, goat that     Animal Sanctuary
probably escaped from New
                              ✓ Lugares:Woodstock (NY); New
York City slaughterhouse;
                               York City
Albie injured leg in escape
and it had to be amputated;
                              ✓ Pessoas: Santos, Fernanda; Brown,
Brown had leg amputated as
Apresentação:
www.renanoliveira.net

Contato:
renan@corp.globo.com
@renan_oliveira

globo.com
Renan Oliveira

Introdução a web semântica e o case da globo.com

  • 1.
    WEB SEMÂNTICA Renan Oliveira
  • 2.
    AGENDA • Web atual: hipertexto • Web semântica • Ontologias • Modelagem de dados • Linked Open Data
  • 3.
    WEB ATUAL • Apresentação do conteúdos • Formatação, não significado • Pouca ou nenhuma estruturação
  • 4.
    CONTEÚDO MULTIMÍDIA • Vários elementos na página • Fotos, vídeos e animações • Qual a relação entre eles? • Quem é mencionado no texto? • Quem, Quando, Onde...
  • 5.
    COMO ISSO AFETA ALGO COMUM? Busca por Gols do Roberto Carlos no Maracanã
  • 6.
  • 7.
  • 8.
    PROBLEMAS • Busca feita por palavras (dados, não informações) • Falta de contexto (como fotos e vídeos se relacionam com o texto?) • Ambiguidade (qual Roberto Carlos?) • Pouca relevância (gol???)
  • 9.
    MELHORIAS • Registrar de forma precisa • Organizar corretamente • Transmitir significado
  • 10.
    WEB SEMÂNTICA “I havea dream for the web in which computers become capable of analyzing all the data on the web - the content, links, and transactions between people and computers.” Tim Berners-Lee
  • 11.
    HOMEM + MÁQUINA • Cada um desempenha seu melhor papel • Homem - desambiguar, relacionar e definir regras • Máquina - organizar, indexar e inferir
  • 12.
    REGISTRAR INFORMAÇÃO • Produtor do conteúdo • Sabe o que, quem, quando, onde... • Resolve ambiguidade
  • 13.
  • 14.
    ONTOLOGIAS • “Uma ontologia é um modelo de dados que representa um conjunto de conceitos dentro de um domínio e os relacionamentos entre eles” - Wikipedia
  • 15.
    MONTAGEM • Identificar os indivíduos • Descrever seus atributos • Agrupar os indivíduos em classes • Enumerar as relações entre indivíduos • Definir regras sobre atributos e relações
  • 16.
    CONTRUÇÃO DE ONTOLOGIAS • Linguagens para definir ontologias • OWL (Web Ontology Language) • RDF (Resource description framework)
  • 17.
  • 19.
    VANTAGENS • Modelagem natural • muito próximo da orientação a objetos • Expressividade • representa qualquer relacionamento possível • restrições, cardinalidade • Capacidade de inferência • regras sobre as classes e relacionamentos
  • 20.
    EXIBIR INFORMAÇÃO • HTML e XML não são suficientes • Estrutura, mas não significado <document type="progressive rock"> <name>Another Brick in the Wall</name> <author>Roger Waters</author> </document>
  • 21.
    REPRESENTAÇÃO ESTRUTURADA • “Tags” com estrutura semântica • Padronização dos elementos <music type="rock"> <title>Another Brick in the Wall</title> <composer>Roger Waters</composer> </music>
  • 22.
    COMO PADRONIZAR? • Vocabulários controlados • Exemplo: Dublin Core Metadata Initiative (DCMI) • termos com significado bem definido: • title, creator, contributor, creator, ...
  • 23.
    OUTROS VOCABULÁRIOS • FOAF (Friend of a Friend) • informações sobre as pessoas • orginalmente usado para redes sociais • Core Ontology for Multimedia (COMM) • informações sobre arquivos de mídia • dimensões, encoding, histórico de produção
  • 24.
    XML USANDO DUBLINCORE <music type="rock"> <dc:title> Another Brick in the Wall </dc:title> <dc:creator> Roger Waters </dc:creator> </music>
  • 25.
    HTML + RDFA <spanproperty="foaf:name"> Roger Waters </span> nasceu em <span property="foaf:dateOfBirth" content="1943-09-06" datatype="xsd:date"> 6 de setembro de 1943 </span>
  • 26.
    SCHEMA.ORG • Iniciativa Google, Bing e Yahoo! • Gera Rich Snippet • Grande melhoria em SEO.
  • 27.
    BENEFÍCIOS • Significado explícito • Sem ambiguidades • Entendido por máquinas de busca
  • 28.
    LINKED DATA • Referências cruzadas globais • Embutidas em páginas HTML • RDFa, schema.org • Identificadores único (URIs) para conceitos • Bases de dados de referência
  • 30.
    LINKED OPEN DATACLOUD • Repositório de uso geral • DBPedia (conceitos extraídos da Wikipedia) • FreeBase • Repositório sobre domínios específicos • GeoNames • MusicBrainz • Novos sites com autoridade sobre o domínio
  • 31.
    BUSCAS SEMÂNTICAS • Encontram e analisam meta-informação • tags com RDFa, microdata • repositório de triplas • Relacionam informações em sites diferentes • Exemplo: Sindice e Google*
  • 32.
  • 39.
  • 40.
  • 41.
  • 42.
  • 43.
  • 48.
    CONHECIMENTO ÚNICO Menor risco de duplicidade dos dados Simplificação do uso e da manutenção dos dados Agilidade na recuperação dos dados
  • 49.
    cita a entidade Materia Pessoa ONTOLOGIA TRIPLA cita a entidade Matéria Romário
  • 51.
    CASES RELEVANTES Modelos de uso da Web Semântica
  • 52.
    Best Buy • BBC • New York Times
  • 54.
    AÇÕES REALIZADAS • Uso da ontologia GoodRelations • Adição de metadados: RDFa
  • 57.
    RESULTADOS ALCANÇADOS • Tráfego originado por motores de busca: + 30% • Taxa de cliques no Yahoo!: + 15% • Aumento significativo do Google PageRank
  • 59.
    AÇÕES REALIZADAS • Ontologias públicas • Interligação com repositórios de dados externos • Criação de categorias e agregadores úteis
  • 60.
  • 61.
  • 62.
  • 65.
    RESULTADOS ALCANÇADOS • Proliferação de links relevantes: potencialização de SEO • Reuso das informações: menor desperdício de pessoal • Navegação interligada e escalável para toda a BBC
  • 67.
    AÇÕES REALIZADAS • Anotação e indexação do conteúdo baseado em indivíduos • Ontologia pública • Interligação com repositórios de dados externos • Adição de metadados: Open Graph
  • 68.
    NYT Index Abstract ✓ Assuntos: Livestock; Goats; Jenny Brown, owner of Amputation; Prosthesis; Legs Woodstock (NY) Farm Animal Sanctuary, forms special ✓ Organizações:Woodstock Farm bond with Albie, goat that Animal Sanctuary probably escaped from New ✓ Lugares:Woodstock (NY); New York City slaughterhouse; York City Albie injured leg in escape and it had to be amputated; ✓ Pessoas: Santos, Fernanda; Brown, Brown had leg amputated as
  • 72.

Notas do Editor