Este documento discute a anotação semântica em documentos não estruturados, comparando diferentes padrões como Microformatos, eRDF, RDFa e Microdata. Também apresenta ferramentas de anotação e extração semântica e discute como elas representam e armazenam anotações.
Arquitetura da Informação - Capítulo 9 – Tesauros, Vocabulário Controlado e M...Ana Carolina Simionato
Capítulo 9 – Tesauros, Vocabulário Controlado e Metadados
In:MORVILLE, P.; ROSENFELD L. Information Architecture for the World Wide Web. Sebastopol, CA: O'Reilly, 2006
Saiba mais em: http://eventos.eci.ufmg.br/index.php/edicic/edicic2016
Projetos de sistemas de informação voltados à disseminação de dados de e para setores específicos necessitam de estruturas na fase de armazenamento que propiciem esta disseminação. Uma das entidades presentes neste contexto é a formalização da representação de pessoas, empresas e organizações. Para a explicitação deste tipo de informação é necessário um conjunto específico de atributos. Entretanto, distintas aplicações destes conjuntos de dados são realizadas com o uso diferentes padrões e estruturas, o que torna complexo o armazenamento unificado deste tipo de informação. Portanto, o objetivo deste trabalho é estudar a aderência entre os padrões de representação de dados vCard e o vocabulário Friend of a Friend (FOAF), definindo um núcleo comum para a explicitação de entidades desta temática para setores específicos – com independência tecnológica – necessárias à estruturação de bases de dados na fase de armazenamento destes conjuntos de dados. O universo de pesquisa está delimitado ao estudo destes padrões de representação para entidades relacionadas a descrição de pessoas. Como resultado, apresenta-se uma proposta de elementos para a geração de estruturas de representação de dados sobre entidades para setores específicos em vCard e FOAF. A geração de um núcleo independente de elementos que permita um armazenamento unificado de informações necessárias para a representação de pessoas voltadas a um setor específico pode ser um dos fatores de qualidade na fase de armazenamento destes conjuntos de dados, principalmente devido à aderência entre atributos e propriedades pertencentes a estes padrões de representação, além de aproximar estes elementos de representações com um atendimento mais eficiente de necessidades geradas pelos fluxos informacionais dos sistemas de informação, permitindo, a partir de uma única base de dados, a construção de múltiplas visualizações destes conjuntos de dados, como estruturas voltadas ao intercâmbio de dados por sistemas de informação ou consultas voltadas para Web Semântica.
Arquitetura da Informação - Capítulo 9 – Tesauros, Vocabulário Controlado e M...Ana Carolina Simionato
Capítulo 9 – Tesauros, Vocabulário Controlado e Metadados
In:MORVILLE, P.; ROSENFELD L. Information Architecture for the World Wide Web. Sebastopol, CA: O'Reilly, 2006
Saiba mais em: http://eventos.eci.ufmg.br/index.php/edicic/edicic2016
Projetos de sistemas de informação voltados à disseminação de dados de e para setores específicos necessitam de estruturas na fase de armazenamento que propiciem esta disseminação. Uma das entidades presentes neste contexto é a formalização da representação de pessoas, empresas e organizações. Para a explicitação deste tipo de informação é necessário um conjunto específico de atributos. Entretanto, distintas aplicações destes conjuntos de dados são realizadas com o uso diferentes padrões e estruturas, o que torna complexo o armazenamento unificado deste tipo de informação. Portanto, o objetivo deste trabalho é estudar a aderência entre os padrões de representação de dados vCard e o vocabulário Friend of a Friend (FOAF), definindo um núcleo comum para a explicitação de entidades desta temática para setores específicos – com independência tecnológica – necessárias à estruturação de bases de dados na fase de armazenamento destes conjuntos de dados. O universo de pesquisa está delimitado ao estudo destes padrões de representação para entidades relacionadas a descrição de pessoas. Como resultado, apresenta-se uma proposta de elementos para a geração de estruturas de representação de dados sobre entidades para setores específicos em vCard e FOAF. A geração de um núcleo independente de elementos que permita um armazenamento unificado de informações necessárias para a representação de pessoas voltadas a um setor específico pode ser um dos fatores de qualidade na fase de armazenamento destes conjuntos de dados, principalmente devido à aderência entre atributos e propriedades pertencentes a estes padrões de representação, além de aproximar estes elementos de representações com um atendimento mais eficiente de necessidades geradas pelos fluxos informacionais dos sistemas de informação, permitindo, a partir de uma única base de dados, a construção de múltiplas visualizações destes conjuntos de dados, como estruturas voltadas ao intercâmbio de dados por sistemas de informação ou consultas voltadas para Web Semântica.
A Web Semântica (ou Web 3.0), uma extensão da Web convencional, surgiu com o propósito de suprir a necessidade de processamento e interpretação do conteúdo presente na Web por computadores, através de processos automatizados. Proposta por Berners-Lee, Hendler e Lassila em 2001, a Web Semântica possui mecanismos para tratar semanticamente a informação. Os recursos presentes na Web são ligados através de links. Com a adição de semântica nessas ligações, cada uma pode representar uma forma de relacionamento entre dados, contextualizando-os. Os relacionamentos semânticos tornam possível o processamento do significado das palavras em seu contexto. Esta palestra destinasse a apresentar as características e conceitos da Web Semântica e como utiliza-la em conjunto com aplicações da Web Social (2.0), como Redes Sociais Online, através da linguagem PHP.
Descrição de recursos em wikis semânticos: dados em RDF para Linked Data
Jaider Andrade Ferreira
Mestrando em Ciência da Informação
Orientadora: Plácida L. V. A. da C. Santos
A Web Semântica (ou Web 3.0), uma extensão da Web convencional, surgiu com o propósito de suprir a necessidade de processamento e interpretação do conteúdo presente na Web por computadores, através de processos automatizados. Proposta por Berners-Lee, Hendler e Lassila em 2001, a Web Semântica possui mecanismos para tratar semanticamente a informação. Os recursos presentes na Web são ligados através de links. Com a adição de semântica nessas ligações, cada uma pode representar uma forma de relacionamento entre dados, contextualizando-os. Os relacionamentos semânticos tornam possível o processamento do significado das palavras em seu contexto. Esta palestra destinasse a apresentar as características e conceitos da Web Semântica e como utiliza-la em conjunto com aplicações da Web Social (2.0), como Redes Sociais Online, através da linguagem PHP.
Descrição de recursos em wikis semânticos: dados em RDF para Linked Data
Jaider Andrade Ferreira
Mestrando em Ciência da Informação
Orientadora: Plácida L. V. A. da C. Santos
Paulo Augusto Loncarovich Gomes - UNESP - Mestrado em Ciência da Informação e Tecnologia, Universidade Estadual Paulista Júlio de Mesquita Filho - Faculdade de Filosofia e Ciências - Campus de Marília - Av. Hygino Muzzi Filho, 737 - Campus Universitário 17525-900 - Marilia, SP - Brasil - Caixa-Postal: 181
e-mail: loncarovich@marilia.unesp.br
Apresentado em 31 de Agosto de 2009.
proposta curricular para educação de jovens e adultos- Língua portuguesa- anos finais do ensino fundamental (6º ao 9º ano). Planejamento de unidades letivas para professores da EJA da disciplina língua portuguesa- pode ser trabalhado nos dois segmentos - proposta para trabalhar com alunos da EJA com a disciplina língua portuguesa.Sugestão de proposta curricular da disciplina português para turmas de educação de jovens e adultos - ensino fundamental. A proposta curricular da EJa lingua portuguesa traz sugestões para professores dos anos finais (6º ao 9º ano), sabendo que essa modalidade deve ser trabalhada com metodologias diversificadas para que o aluno não desista de estudar.
Slides Lição 9, Central Gospel, As Bodas Do Cordeiro, 1Tr24.pptxLuizHenriquedeAlmeid6
Slideshare Lição 9, Central Gospel, As Bodas Do Cordeiro, 1Tr24, Pr Henrique, EBD NA TV, Revista ano 11, nº 1, Revista Estudo Bíblico Jovens E Adultos, Central Gospel, 2º Trimestre de 2024, Professor, Tema, Os Grandes Temas Do Fim, Comentarista, Pr. Joá Caitano, estudantes, professores, Ervália, MG, Imperatriz, MA, Cajamar, SP, estudos bíblicos, gospel, DEUS, ESPÍRITO SANTO, JESUS CRISTO, Com. Extra Pr. Luiz Henrique, 99-99152-0454, Canal YouTube, Henriquelhas, @PrHenrique
Atividade - Letra da música "Tem Que Sorrir" - Jorge e MateusMary Alvarenga
A música 'Tem Que Sorrir', da dupla sertaneja Jorge & Mateus, é um apelo à reflexão sobre a simplicidade e a importância dos sentimentos positivos na vida. A letra transmite uma mensagem de superação, esperança e otimismo. Ela destaca a importância de enfrentar as adversidades da vida com um sorriso no rosto, mesmo quando a jornada é difícil.
Projeto de articulação curricular:
"aLeR+ o Ambiente - Os animais são nossos amigos" - Seleção de poemas da obra «Bicho em perigo», de Maria Teresa Maia Gonzalez
Slides Lição 10, Central Gospel, A Batalha Do Armagedom, 1Tr24.pptxLuizHenriquedeAlmeid6
Slideshare Lição 10, Central Gospel, A Batalha Do Armagedom, 1Tr24, Pr Henrique, EBD NA TV, Revista ano 11, nº 1, Revista Estudo Bíblico Jovens E Adultos, Central Gospel, 2º Trimestre de 2024, Professor, Tema, Os Grandes Temas Do Fim, Comentarista, Pr. Joá Caitano, estudantes, professores, Ervália, MG, Imperatriz, MA, Cajamar, SP, estudos bíblicos, gospel, DEUS, ESPÍRITO SANTO, JESUS CRISTO, Com. Extra Pr. Luiz Henrique, 99-99152-0454, Canal YouTube, Henriquelhas, @PrHenrique
1. Anotação semântica em
documentos não estruturados
Celso Araujo Fontes
Professoras: Maria Claudia R. Cavalcanti, D.Sc. e
Ana Maria de Carvalho Moura, Dr. Ing
SC 214202 – maio de 2010 Instituto Militar de Engenharia
Sistemas de Banco de Dados, Profa. Maria Claudia Curso de Mestrado em Sistemas e Computação
2. Introdução
Existem hoje bilhões de documentos na Web e
ainda milhões de páginas em intranets, sendo
acessados por 1,5 bilhões de usuários no mundo [1].
A maior parte destas informações é construída
apenas para o consumo humano.
Vem à tona a necessidade do gerenciamento desse
conteúdo, no que diz respeito à dificuldade na
busca, organização, acesso e manutenção das
informações.
3. Problemas da Web Atual
Busca da Informação
Problema de “precisão” das atuais
ferramentas de pesquisa
– Navegação através de links e uso de palavras
chaves p/ busca
– Problemas p/ identificar, descrever e localizar
recursos de forma mais eficiente [2]
4. Problemas da Web Atual
A falta de meta dados na web inibe um
processamento por máquina mais
inteligente.
5. Metadados
Metadados permitem descrever informações,
auxiliando na identificação, localização e
gerenciamento dos dados (BONIFACIO,
2002).
6. Ontologias
Segundo Grubber (GRUBBER, 1992), uma ontologia
é uma especificação explícita de uma conceituação.
A conceituação é uma abstração simplificada do
domínio em que desejamos representar para algum
propósito.
No campo da Filosofia, as ontologias têm sido
utilizadas para tentar descrever domínios naturais
(as coisas naturais do mundo) e a existência dos
seres e coisas em si, desvendando, desta forma, o
significado das coisas no mundo (LIMA e
SCHWABE, 2004).
7. Web Semântica
A web semântica é “uma extensão da web
atual, em que a informação é dada com um
significado bem definido, permitindo que
computadores e pessoas trabalhem em
cooperação”. [Bernes-Lee, 2001]
8. Web Semântica e Ontologias
Evolução natural de esforços anteriores
– Metadados na Web
– Padrões de Metadados
– Arquiteturas de Metadados
– RDF e RDFS foram os precursores das ontologias na Web
– Rápida evolução das demais iniciativas
DAML
OIL
DAML+OIL
OWL
OWL2
9. Web Semântica – Representação do
Conhecimento
RDF
RDFS
OWL
OWL2
10. O que significa chamar uma tecnologia
de “semântica” ?
Pretende:
– Representar conhecimento
– Compartilhar um entendimento comum em relação ao
significado
– Ser apropriada para a ligação de recursos sob diferentes
esquemas de representação
– Estabelecer associações entre os itens que não estão
explicitas
– Apoiar inferência sobre o conhecimento para gerar mais
conhecimento
11. Problema
Dados estruturados para interpretação por
máquina normalmente são distribuídos num
formato distinto e separado do conteúdo
original e a correspondência entre eles é
bastante limitada (ADIDA et al., 2008).
RDF, OWL e outros formatos XML são
complexos para interpretação da maioria das
pessoas
12. Solução
Visando incorporar metadados ricos a um
documento e manter o seu conteúdo visual
legível ao ser humano, foram propostos
padrões de anotação semântica.
– Objetivo: utilizar um conjunto de descritores,
relacionados a um vocabulário, para “anotar”
informações de um documento da internet,
expressando o significado do conteúdo neles
descritos.
13. Anotação Semântica
“Esquema específico para geração e uso de
metadados, possibilitando novos métodos de
acesso a informação” [Popov et al., 2003].
“A anotação semântica de um documento
descreve o seu conteúdo pela associação a
conceitos e instâncias descritos na
ontologia” [Eller, 2008].
14. Anotação Semântica
Na figura abaixo, podem ser observadas as anotações semânticas
referentes a um texto simples. As entidades presentes no texto são
associadas à sua definição semântica:
Exemplo de marcação
semântica. Fonte: [7]
com adaptações
15. Características Relacionadas para Análise
dos Padrões de Anotação Semântica
Uso de vocabulários customizados
DRY
Compatibilidade com HTML
Compatibilidade com XHTML
Utilização somente de atributos nativos do HTML e XHTML
Suporte ao Blank Node
Utilização de namespaces
Suporte a Literal simples
Suporte a Literal XML
Suporte à Literal tipada
Suporte a CURIE
Referência a nodos não descendentes
16. Microformat
É um conjunto limitado de especificações utilizado
para descrever informações em documentos web.
[PEREIRA, 2009]
Suas especificações ou vocabulários se dividem em
duas categorias:
– Padrões aceitos: validados pela comunidade e utilizados
conforme descrito nas especificações;
– Propostas emergentes: projetos que se encontram em
processo de desenvolvimento, estando suas
especificações sujeitam a alterações até sua aceitação final
(RAMOS et al., 2009).
18. Microformat
Vantagens
– Simplicidade
– Popularidade (Twitter, Facebook, Flickr...)
– Utiliza atributos nativos do HTML
Desvantagens
– Restrito a um pequeno número de vocabulários
– Não suporta o HTML5 100%
19. eRDF (Embedded RDF)
Baseado em alguns princípios do
Microformat, porém permite a anotação a
utilização vocabulários arbitrários em suas
anotações semânticas [Nowack, 2005]
21. eRDF
Vantagens
– Permite a utilização de vocabulários arbitrários
Desvantagens
– Não possui suporte explícito a recursos anônimos
(Blank Nodes)
– Não possui suporte a literal XML e Tipada
22. RDFa (Resource Description Framework – in – attributes)
Recomendação da W3C para anotação
semântica em documentos XHMTL 1.1
[W3C, 2008].
Definido como “A collection of attributes and
processing rules for extending XHTML to
support RDF”
24. RDFa
Vantagens
– Blank Nodes
– CURIEs
– Suporte a literal XML e Tipada
Desvantagens
– Adição de novos elementos ao XHMTL (about,
property, resource, datatype, typeof)
– Suporte apenas ao XHTML 1.1 (suporte ao HTML
encontra-se em fase de rascunho)
25. Microdata
Padrão da W3C para anotação semântica
em documentos HTML5 [W3C, 2008].
Esta especificação é resultado das
investigações de Ian Hickson sobre os
problemas que o RDFa consegue resolver
em contrapartida a sua complexidade
(STUDHOLME, 2010).
26. Microdata (Exemplo)
<div itemscope itemref="a b"></div>
<p id="a"> Meu nome é: <span itemprop="name">Celso</span>
</p>. Sou aluno da professora
<div id=“MariaClaudia" itemprop=“alunoDe" itemscope>
<span itemprop="name">Maria</span>,
Também conhecida como:
<span itemprop=“nickname">Yoko</span>
</div>
“Celso Araujo”
name “Yoko”
_blanknode1 nickname
alunoDe
#MariaClaudia name “Maria”
27. Microdata
Vantagens
– Mais simples que o RDFa
– Flexibilidade para referência entre nodos
Desvantagens
– Imaturo (poucas ferramentas, exemplos etc…)
28. Comparativo
Microformatos eRDF RDFa Microdata
Uso de vocabulários customizados NÃO* SIM SIM SIM
DRY SIM SIM SIM SIM
Compatibilidade com HTML SIM SIM SIM** SIM***
Compatibilidade com XHTML SIM SIM SIM**** SIM
Utilização somente de atributos nativos do SIM SIM NÃO NÃO***
HTML e XHTML
Suporte ao Blank Node NÃO NÃO SIM SIM
Utilização de namespaces NÃO SIM SIM SIM
Suporte a Literal simples SIM SIM SIM SIM
Suporte a Literal XML NÃO NÃO SIM NÃO
Suporte à Literal tipada SIM NÃO SIM SIM
Suporte a CURIE NÃO NÃO SIM NÃO
Referência a nodos não filho NÃO NÃO NÃO SIM
29. Ferramentas de Anotação Semântica
São sistemas que provêem anotação
semântica sobre um conteúdo qualquer com
o auxílio de um vocabulário através de
extração automática, sugestões de
anotações ou interfaces gráficas para a
anotação manual (SEMANTICWEB, 2008).
31. Comparativo
Tipo Represent Armazenamento da Anotação Referência com o Referência entre termo e Entrada de Plataforma
ação da Vocabulário Anotação Vocabulários
Anotação Arbitrários
Annotea Manual Não RDF/XML Xpointer SIM SIM Desktop
intrusiva
GATE Híbrida Híbrida Banco de dados e XML URIS SIM SIM Desktop
KIM Automática Não SIM* SIM Híbrida
intrusiva
OpenCalais Automática Não RDF/XML, JSON, URIS SIM NÃO Web
intrusiva Microformat e SimpleFormat
Zemanta Automática Não XML, JSON, WNJSON, URL NÃO NÃO Web
intrusiva RDF/XML
SMORE Manual Não RDF/XML URIS NÃO SIM Desktop
intrusiva
Ontos Automática Não JSON URIS NÃO SIM*** Web
intrusiva
TextWise Automática Não JSON e XML URIS NÃO NÃO Web
intrusiva
32. Ferramentas de Extração Semântica
Ferramentas capazes de indexar metadados
contidos em ontologias ou documentos com
anotações semânticas.
Também conhecidas como ferramentas de
“busca semântica”
33. Sindice
Sindice (Semantic Web Index) é uma
ferramenta de busca semântica que coleta
dados de documentos RDF e de páginas
web com anotações no padrão
microformatos ou RDFa.
34. Yahoo Search Monkey
SearchMonkey é um serviço do Yahoo! que
permite desenvolvedores e proprietários de
sites utilizarem dados estruturados de forma
a tornar as buscas pelo Yahoo! mais úteis e
visualmente atraentes, direcionando o
tráfego mais relevante para os seus sites
(YAHOO, 2010).
35. Google Rich Snippets
O Google Rich Snippets é uma nova
abordagem de apresentação dos resultados
de pesquisa do Google (Figura 10) visando
destacar alguns dados estruturados
incorporados em páginas da web (GOEL et
al., 2009).
36. Características Relacionadas para Análise
dos Ferramentas de Extração Semântica
Padrões de Anotação
Vocabulários suportados
Uso de vocabulários arbitrários
37. Comparativo
Google Rich
Sindice Yahoo! SearchMonkey
Snippets
RDFa SIM SIM SIM
Padrões de Microformatos SIM SIM SIM
Anotações eRDF NÃO NÃO SIM
Microdata SIM NÃO NÃO
hCalendar, hReview, XFN, hCard, Dublin Core, Foaf,
hProduct, hCalendar, hCard, hCalendar,
Vocabulários hCard, hReview, Rel- hReview, SIOC,
Suportados Facebook Share License, GoodRelations,
e YahooSearch hListing e Dbpedia, Freebase,
Monkey Media hResume hFeed e XFN
Uso de Vocabulários Arbitrários NÃO ??? SIM
38. Bibliografia
IWS – Internet World Stats. 2009. Disponível em:
http://www.internetworldstats. com/pr/edi038.htm.
MOURA, ANA. 2004. Introdução a Web Semântica.
http://www.mar.mil.br/sdms/Tutorial-SDMS-0051.htm
LUIZA, Maria. O Papel de Ontologias em
Sistemas de Informação.
Bernes-Lee T. The Semantic Web.
http://www.scientificamerican.com/article.cfm?id=the-semantic-web&page=2
Perreira H. Microformats
http://revolucao.etc.br/archives/microformats
Nowack B. Embedded RDF (eRDF) Parser for PHP
http://bnode.org/blog/2006/05/29/arc-embedded-rdf-erdf-parser-for-php
POPOV, B., KIRYAKOV, A., KIRILOV, A., MANOV, D., OGNYANOFF, D.,
GORANOV, M. KIM – Semantic Annotation Platform. Disponível em: <http://
www.ontotext.com/kim/>. Acesso em 25 ago 2009