WEB SEMÂNTICA Recuperação da Informação Prof. Fábio Assis Pinho . UNIVERSIDADE FEDERAL DE PERNAMBUCO
Recuperação da Informação: Prof. Fábio Assis Pinho Apresentação: Ailton Pedro Aurélio Fernando Clodoaldo Santos  Corina Nascimento José Aniceto José Ricardo Rafael Rodrigo WEB SEMÂNTICA Maio / 2009
“ A Web Semântica é uma extensão da Web atual, onde a informação possui um significado claro e bem definido, possibilitando uma melhor interação entre computadores e pessoas”.   WEB SEMÂNTICA Berners Lee.
A História da Web Corina Nascimento
A História da Internet Fatos históricos Biblioteca de Alexandria, criada por Ptolomeu I (289 a.C.); Mundaneum, idealizado por Paul Otlet e Henri de La Fontaine, eles começaram a coletar dados de todos os livros, revistas, artigos já publicados, usando cartões de índice de 7 a 12 cm (o que havia de mais avançado na tecnologia de armazenamento)criando um banco de dados com mais de 12 milhões de entradas individuais ; Memex, máquina capaz de estocar grande quantidade de informação de forma fácil que permitisse uma rápida recuperação. Nunca foi construída, embora Vannevar Bush a enxergasse como a extensão natural das tecnologias existentes em 1945; Projeto Xanadu, criado por Theodore Nelson imaginando uma imensa rede de informações acessível em tempo real, contendo todo o saber literário e científico do mundo.
A Evolução da Internet Durante a Guerra Fria, o departamento de defesa dos EUA, pensou em um sistema  que interligasse vários pontos, de modo que não centralizasse o comando,(Anos 60/70); 1969 surge a ARPAnet (Advanced Research Projects Agency), rede que interligava originalmente vários centros de pesquisa; Início dos anos 80, foi desenvolvida uma nova utilidade para a ARPnet, interligar laboratórios e universidade nos EUA, surgiu o nome Internet; Final dos anos 80, a Internet passa a ser vista como um eficiente veículo de comunicação mundial, onde cientistas e acadêmicos passaram a utilizá-la mais intensamente (existia apenas em formato de texto, antigos arquivos Gopher; O Protocolo de comutação de pacotes originais usado pela ARPAnet era o NCP (Network Control Protocol), mudado para o TCP/IP (Transfer Control Protocol/Internet Protocol) desenvolvido pela UNIX. Anos 90, Tim Berners-Lee com sua equipe de pesquisadores, teve a idéia de desenvolver um sistema de hipertexto que deveria funcionar em redes de computadores;
A Evolução da Internet 1991, esses pesquisadores tiveram a idéia de criar a Word Wide Web (maior parte das informações em formato de texto, com poucos desenhos) 1992 foi criado o Mosaic (capaz de interpretar gráficos e realizar navegações através de links), primeiro navegador para Internet, para sistema X Windows Em seguida apareceram versões do Mosaic para Macintosh e Microsoft Windows; Nos dias atuais os padrões  com o qual as páginas são programadas são definidas pela W3C (World Wide Web Consortium), consórcio liderado por Tim Beeners-Lee, do qual fazem parte empresas como Microsoft, Apple, Sun e Netscape.
A 1ª fase restringiu-se ao âmbito acadêmico; Em 1987 pesquisadores e técnicos da EMBRATEL se reuniram na USP, para discutir a montagem de uma rede que interligasse universidades brasileiras e internacionais; Em 1989 foi criada a RNP (Rede Nacional de Pesquisa), com o objetivo inicial de construir uma infraestrutura de rede nacional de âmbito acadêmico; Em 1991, a FAPESP (Fundação de Amparo à Pesquisa do Estado de São Paulo) estabeleceu a primeira conexão utilizando o padrão TCP/IP, permitindo a administração de domínio “.br” e a distribuição de endereços IP para todo o país. A Evolução da Internet no Brasil
A Evolução da Internet no Brasil Em 1995, teve início o processo de abertura da Internet no país, por meio da EMBRATEL e da RNP; Em 1996, depois de autorizado pelo ministro das Comunicações, a Internet brasileira deixou de ser um privilégio de universidades e passou a ser explorada comercialmente.
Números Tempo que novas tecnologias levaram para atingir 50 milhões de usuários no mundo: Rádio 38 anos Computador 16 anos Televisão 13 anos TV a cabo 10 anos Internet 4 anos
Estrutura e componentes da WEB O desenvolvimento da WEB, só foi possível a partir da definição de padrões abertos; Ao utilizar padrões disponíveis para todos, tornou-se mais fácil a adaptação das diferentes redes ou diferentes equipamentos utilizados; Já que sua proposta é a interconexão de redes de diversos tipos; Entre os padrões abertos, pode-se destacar o HTTP (Hypertext Transfer Protocol), que pode ser entendido como um conjunto de regras definidas para a comunicação entre os componentes da WEB.
Outro componente fundamental na Internet é o Identificador Único de Recurso(URI), codifica nomes dos recurso e respectivos endereços na Internet Um URI é um padrão que pode ser representado pelos conceitos de URL (Localizador Único de Recurso) e URN (Nome Único de Recurso) Estrutura e componentes da WEB
URI é formado por basicamente três partes: Estrutura e componentes da WEB
Para disponibilização de recursos informacionais no ambiente WEB, são utilizados documentos informacionais chamados páginas WEB; Estas páginas são desenvolvidas utilizando linguagens computacionais denominadas linguagens de marcação; Ao invés de utilizar comandos e funções para realização de tarefas, utiliza “tags”, para marcar o conteúdo do documento; Estrutura e componentes da WEB
A HTML (Hypertext Markup Language´) é considerada como a linguagem padrão para o desenvolvimento de páginas da WEB Derivada da linguagem SGML (Standard Generalized Markup Language) Utiliza o padrão ASCII, considerado como um formato de texto simples, que pode ser identificado de qualquer computador; A HTML representa os dados de forma simples, priorizando o modo de apresentação de conteúdos.Não possibilita a descrição de estruturas semânticas; Para marcar um trecho de texto informando que é um parágrafo, em HTML deve utilizar os tags <P> e </P> no início e no final do parágrafo. Um fator de limitação da HTML é que ela impossibilita a atribuição de significados aos conteúdos das páginas, trazendo assim um grande volume de dados não relevantes, dificultando a recuperação de informações. Falta de extensibilidade;  Estrutura e componentes da WEB
WEB SEMÂNTICA Vem se apresentando como a solução para ordenar o caos informacional existente na web; Possibilitará a compreensão e o gerenciamento dos conteúdos armazenados na web; O fantasma da perda de informação ou mensagens do tipo “Error 404: Not Found” deverão inexistir, ou estar sob controle; Para implementação ou reorganização da WEB SEMÂNTICA há um contingente de pesquisadores trabalhando no W3C, em países como EUA, França e Japão, com a missão de alavancar a web ao seu potencial máximo.
Arquitetura  da Web Semântica Parte 1 Aurélio Fernando
Introdução A internet tornou-se um fenômeno mundial, sendo possível acessar informações em diversas partes do mundo instantaneamente. O volume destas informações alcançaram números impressionantes nos dias atuais.Entretanto o vasto número de documentos Web e a falta de padronização dessas informações originaram um problema para os usuários na hora de navegar na Internet e assim achar as informações desejadas. Esse problema é chamado de  Information Overload . Esse problema é caracterizado quando uma pessoa, ao realizar uma consulta, obtém um número excessivo de informações como resposta e não consegue absorvê-las ou tratá-las, tendo que examinar todos os documentos resultantes para encontrar as informações desejadas. Como a maior parte das informações disponíveis na Internet, está disposta em linguagem natural, sendo compreensíveis apenas por humanos, houve a necessidade de uma semântica que permitisse uma padronização das informações sendo possível o processamento dessas informações por humanos e máquinas, surgindo assim a idéia do desenvolvimento da Web Semântica.  O termo &quot;Semântica&quot; é definido como sendo o estudo do sentido das palavras.
Arquitetura A  Web Sem â ntica introduz estrutura e  significado  ao conte ú do dispon í vel na internet, visando   transformar uma   rede de documentos em uma rede   de dados, co m preens í vel tanto para humanos   quanto para   computadores, de maneira a possibilitar   que os  ú ltimos cooperem melhor durante a   realizac ã o de tarefas, ou quando da  realização  de   um  serviço  aos usu á rios. O principal desa fio  da   Web Sem â ntica  é  criar uma linguagem que consiga   expressar o  significado  e ao mesmo tempo estabelecer   regras para processar esse  significado  de   forma a inferir novos dados e regras. As regras   para o processamento do  significado  devem ser exportadas   para a web  afim  de permitir que outros   sistemas inteligentes possam interagir. Na proposta de desenvolvimento da Web   Sem â ntica  é  sugerida uma arquitetura de 3 camadas:
Arquitetura A camada de Estrutura: que estrutura os dados e define seu significado; A camada ontologia: que define as relações entre os dados; A camada lógica: que define mecanismos para fazer inferências sobre os dados.
Arquitetura Disposição das  camadas
Arquitetura Dados Regras  de  Inferência Camada de Estrutura Camada  Lógica Web  Semântica Camada de Ontologia … Camada de Estutura
Arquitetura A camada  de Estrutura: A camada  de estrutura  prov ê  uma forma de  definir  os dados do documento e o  significado  associado   a esses dados. Trata  também  da  estruturação  e  disposição  dos dados de forma que os programas   que rodam na web possam fazer infer ê ncia a partir   dos mesmos. Para que haja a representac ã o do conhecimento  são  necessarias t rês   condições : Interoperabilidade estrutural:  Permite   que os dados sejam representados de forma   distinta, permitindo especicar tipos e   poss í veis valores para cada forma de  representação ; Interoperabilidade sint á tica:  Constitui -  se   de regras precisas que permitem o interc â mbio de dados na Web; Interoperabilidade Sem â ntica:  Possibilita   a compreens ã o e  associação  entre os dados. Para atender esses requisitos, utiliza-se  XML e   RDF .
Arquitetura Dados Regras  de  Inferência Camada de Estrutura Camada  Lógica Web  Semântica Camada de Ontologia … Camada de Ontologia
Arquitetura A camada Ontologia : Duas bases de dados podem utilizar terminologias   diferentes para referir-se a mesma  informação ,   resultando em  divergências  em um conjunto  semântico  de dados. Pode ocorrer  também  de uma mesma terminologia estar sendo utilizada   com   signicados diferentes, por  aplicações  distintas. Para tratar esses  conflitos , existe a camada de   ontologia   que  define  mecanismos capazes de estabelecer   um  padrão  entre as  páginas   da  web.
Ontologia A  utilização  das triplas   <objeto, atributo,   valor> garante a  definição   únicas  dos conceitos,   no entanto, o mesmo conceito pode ser expresso   de forma diferente e em linguagens diferentes. Por exemplo, duas bases de dados podem armazenar   os mesmos conceitos utilizando terminologias   distintas. Para que a  informação  existente possa   ser processada e relacionada  é necessário  que   exista uma  definição  da  relação  entre os conceitos   contidos em diferentes documentos. Para isso  são  utilizadas as ontologias. Uma ontologia pode ser  definida  como um conjunto   de termos de conhecimento incluindo o  vocabulário ,  interconexões   semânticas  e simples regras  de inferência .
Ontologia Com a  introdução  de ontologias, passa-se de um  domínio  de conceitos isolados na web,  próprios  de   cada  aplicação   específica , para conceitos universalmente   conhecidos entre as  aplicações . As ontologias   permitem expressar regras permitindo a   um programa deduzir signicados da  informação  guardados no documento, ou seja, permitem manipular   os termos de uma maneira mais  útil  e  eficiente . Uma ontologia envolve a  definição  de uma hierarquia   de classes e subclasses para os conceitos   envolvidos.
Arquitetura Camada Lógica Dados Regras  de  Inferência Camada de Estrutura Camada  Lógica Web  Semântica Camada de Ontologia …
Arquitetura É através  da camada  lógica  que  são   possíveis  os relacionamentos de  informação  e as  inferências  de   conhecimento da Web  Semântica . As regras de  inferência  fornecem aos agentes(programas) poder   de raciocinar sobre os termos e seus  significados ,   que foram  definidos  na camada esquema e de raciocinar   a respeito dos relacionamentos entre os   conceitos segundo a sua  definição  na camada ontologia . Os agentes  são  sistemas computacionais capazes   de interagir autonomamente para atingir os objetivos   do seu criador. Os agentes possuem algum as características  como autonomia, reatividade (percebem o ambiente tomam as  decisões ),  têm  comportamento   colaborativo, possuem objetivos,  são flexíveis ,  sociáveis  e  têm  a capacidade de aprender. A Web  Semântica   possuirá   vários  agentes interagindo   entre si, compreendendo, trocando ontologias,   adquirindo novas capacidades racionais   quando adquirirem novas ontologias e formando   cadeias Fonte: Tim Berners-Lee, James Hendler, and Ora Lassila. The semantic web.  Scientic American , pages 35{43, May 2001.
Arquitetura  da Web Semântica Parte 2 AÍlton Pedro
Arquitetura Web Semântica Primeira proposta divulgada publicamente no ano de 2000 pelo W3C (Tim Berners-Lee) Preocupação em desenvolver linguagens computacionais para estruturar recursos e descrever aspectos semânticos Não era suficiente apenas descrever os recursos informacionais sintaticamente, mas desenvolver tecnologias que permitissem descrever o significado das informações URI (Uniform Resource Identifier) – forma como identificamos um ponto de conteúdo na internet
Linguagens de Representação de Recursos Informacionais Principais Linguagens Computacionais Padronizadas pelo W3C: XML (Extensible Markup Language) RDF (Resource  Description  Framework) OWL (Web Ontology Language)
Linguagens de Representação de Recursos Informacionais XML Objetivos da linguagem: Direta e Objetiva Suporta ampla gama de aplicativos Compatível com SGML Fácil de desenvolver programas Número de recursos adicionais mínimos Documetos legíveis e claros Preparado rapidamente Design formal e conciso Documentos fáceis de serem criados A concisão na marcação é de importância mínima Importante característica : permite ao autor do documento a definição das suas próprias marcas, o que confere ao XML habilidades semânticas que possibilitam melhorias nos processos de recuperação e disseminação da informação
RDF Modelo para descrever recursos Baseado em um modelo de grafo no lugar de árvore Sintaxe: (Sujeito, Predicado, Objeto) Usa XML como sintaxe Melhora a descoberta, o acesso e o gerenciamento das informações da Web Linguagens de Representação de Recursos Informacionais
OWL Recomendada pelo W3C para o desenvolvimento de ontologias, definida a partir de: RDF e RDF Schema DAML+OIL Estrutura baseada nos seguintes elementos básicos: Namespaces; Cabeçalhos; Classes; Indivíduos; Propriedades; Restrições Linguagens de Representação de Recursos Informacionais
OWL lite: versão simplificada de OWL oferece primariamente hierarquias e restrições simples OWL DL aumenta a expressividade, mantendo decidibilidade OWL Full expressividade, sem garantia de decidibilidade Linguagens de Representação de Recursos Informacionais
CONTEXTUALIZANDO A  WEB SEMÂNTICA  NO ÂMBITO DA  CIÊNCIA DA INFORMAÇÃO José Aniceto
A Ciência da Informação tem como um de seus objetivos estudar e desenvolver métodos e técnicas para o melhoramento dos processos de armazenamento, organização e recuperação de informação, considerando também aspectos científicos e profissionais que obtém dimensões sociais e humanas, que se apresenta com maior relevância do que os aspectos tecnológicos. CONTEXTUALIZANDO A WEB SEMÂNTICA NO ÂMBITO DA CIÊNCIA DA INFORMAÇÃO. DIFERENTES CONCEITOS AO SE REFERIR AO TERMO INFORMAÇÃO.
CIÊNCIA DA INFORMAÇÃO  X  CIÊNCIA DA COMPUTAÇÃO. No âmbito da área de Ciência da Informação é evidente a presença de componentes semânticos em tal processo, pois para o usuário as informações recuperadas possuem um significado semântico implícito. O projeto Web Semântica baseia-se na possibilidade de categorias que possam ser interpretadas automaticamente pelos computadores.
ONTOLOGIAS COMO INSTRUMENTOS DE REPRESENTAÇÃO Com o grande aumento na quantidade de recursos informacionais, é necessário relaciona-los e organiza-los de maneira adequada, com isso observo-se a necessidade de instrumentos que possibilitem descrever níveis de relacionamentos mais avançados e que possam ser processados de forma automatizada por computadores os quais vem sendo denominados como ontologias.
MODELOS CONCEITUAIS AUTOMÁTICOS As ontologias funcionam de maneira muito parecida com o nosso cérebro. Usando as ontologias uma máquina simples pode fazer coisas que humanos fazem no dia-a-dia, com limites, é claro. Uma ontologia pode assumir vários formatos, mas necessariamente deve incluir um vocabulário de termos e alguma especificação de seu significado. Elas devem obter em seu campo conceitos e uma indicação de como estes deverão estar inter-relacionados.
TESAURO  X  ONTOLOGIAS
A Web Semântica sob o prisma da Ciência da Informação José Ricardo
A Web Semântica sob o prisma da ciência da Informação Objetivo da Web Semântica A contribuição da Ciência da Informação para o projeto web semântico. Exemplo: O formato  Marc  21 (Machine Readable Cataloging) Originado em 1998 e a sua versão em XML.
Exemplos É possível identificar atualmente alguns projetos que têm como principal objetivo o desenvolvimento de novas tecnologias no âmbito de bibliotecas digitais utilizando-se das tecnologias relacionadas ao projeto Web Semântica, entre os quais pode-se destacar o JeromeDL e o MarcOnt.
JeromeDL Reconnecting Digital Libraries and the Semantic Web , o projeto JeromeDL consiste de uma biblioteca digital de código aberto baseada nas principais tecnologias presentes no projeto Web Semântica, permitindo a descrição de recursos a partir da linguagem computacional RDF e a realização de buscas semânticas baseadas em ontologias, possibilitando uma melhora considerável na precisão das buscas e um maior nível de interoperabilidade.
http://library.deri.ie/
MarcOnt o principal objetivo deste projeto é criar uma ontologia capaz de tornar-se um padrão de representação de informações para bibliotecas digitais, possibilitando a descrição dos aspectos semânticos dos conteúdos e favorecendo a integração de bibliotecas. Assim, está em fase de desenvolvimento e avaliação a ontologia MarcOnt, desenvolvida utilizando-se a linguagem OWL, de modo que se espera que tal ontologia seja compatível com o formato MARC 21, permitindo que as descrições semânticas possam ser convertidas para outros formatos, possibilitando grande interoperabilidade e o reaproveitamento das bases de conhecimento, por meio da incorporação de outras ontologias que sigam os mesmos critérios.
http://www.marcont.org/
Ciência da Informação e Web  semântica Juntas propriciam meios mais adequados de representar e organizar conteúdos informacionais, possibilitando responder de maneira mais eficiente às buscas realizadas pelos usuários finais.
RECUPERAÇÃO DA INFORMAÇÃO NA WEB SEMÂNTICA Clodoaldo Santos & Rafael Rodrigo
OBJETIVOS DIMINUIR O CAOS DE EXCESSO DE INFORMAÇÕES ESTRUTURAR A INFORMAÇÃO COM BASES SÓLIDAS DINAMIZAR O RELACONAMENTO HOMEM-MÁQUINA MELHOR QUALIDADE DE REVOCAÇÃO E PRECISÃO
O QUE FALTA ? CONHECIMENTO MAIS APROFUNDADO DOS PROGRMADORES DE PÁGINAS WEB ADOÇÃO DA TECNOLOGIA PELOS SITES DE BUSCA INFRA ESTRUTURA PARA ARMAZENAMENTO E DISSEMINAÇÃO  ATUALIZAÇÃO DA WEB
COMO RECUPERAR  Estratégia: Arte de aplicar os meios disponíveis com vista à consecução de objetivos específicos. Busca: Procura com o fim de encontrar alguma coisa Tática: Processo empregado para sair-se bem num empreendimento
ESTRATÉGIA DE BUSCA  Oldroyd & Citroen (1977) identificaram três grandes etapas para decisão no processo de planejamento da estratégia de busca: decisão sobre qual a melhor base de dados para um determinado tema; decisão referente à seleção dos termos de busca e sua adequação para a base a ser consultada; decisão sobre a formulação lógica da estratégia. É sabido que a maior parte dos usuários, ao realizar uma busca, acredita possuir uma boa compreensão dos próprios problemas. A tarefa do intermediário junto aos sistemas é ajudar o usuário a definir e especificar o problema, com termos e conceitos que são apropriados para aquela fonte de informação específica que será utilizada para a busca. Ou seja, os termos usados em uma determinada área do conhecimento devem ajustar-se àqueles usados nas bases de dados mais relevantes que serão consultadas.
ESTRATÉGIA DE BUSCA – ETAPAS 1ª Etapa: Discussão do tópico geral da pesquisa É útil perguntar como os resultados da busca irão ser aplicados, porque a resposta pode mudar a direção ou a ênfase da busca. 2ª Etapa: Conhecimentos básicos sobre os instrumentos de busca Isto pode ajudar a definir o tópico e gerar uma lista das palavras chave a serem usadas na estratégia de busca 3ª Etapa: Formulação “provisória” da estratégia de busca A busca estará bem definida se o intermediário for capaz de assegurar a recuperação de todas as citações para vários termos. Porem, é desejável que para informações mais complexas, seja usado pelo menos dois conjuntos de termos.
ESTRATÉGIA DE BUSCA – ETAPAS 4ª Etapa: Compreensão da lógica dos conjuntos de termos O uso da interseção de mais de dois conjuntos de termos deve ser evitado, porque, embora os resultados possam ser bem precisos, eles serão limitadores e podem provocar uma possível exclusão de informações relevantes. 5ª Etapa: Interdisciplinaridade Realizar a expansão da busca em outros campos, aumentando consequentemente as possibilidades de documentos de interesse virem a ser recuperados.
ESTRATÉGIA DE BUSCA – ETAPAS 6ª Etapa: Eliminação de termos indesejados Os termos indesejados serão excluídos do resultado da busca depois de se ver o impacto dessa exclusão no resultado total da busca. A decisão para excluir termos nem sempre é fácil e, visualmente, depende da especificação do tópico. 7ª Etapa: Especificação dos parâmetros relevantes para a execução da busca Todos os parâmetros relevantes devem ser considerados para se determinarem os limites da busca. Deve a busca ser limitada nos anos mais recentes? Quais as bases de dados que provavelmente irão fornecer as mais relevantes citações? O pesquisador quer todas as citações que mencionam uma autoridade particular ou somente as que são autorizadas por uma pessoa particular?
FUNCIONALIDADE UTILIZAR O VASTO REPOSITÓRIO DE INFORMAÇÕES DISPONÍVEL DA WEB DE MANEIRA MAIS PRODUTIVA, ÁGIL E SIGNIFICATIVA. PROPORCIONAR AO INDIVÍDUO TUDO DE FORMA ORDENADA, MINIMIZANDO A QUANTIDADE DE BUSCA.
 
Referências RAMALHO, Rogério Aparecido Sá. Web Semântica: aspectos interdisciplinares da gestão de recursos informacionais no âmbito da Ciência da Informação; The New York Time, Museu belga revela a internet de papel do início do século 20; OLIVEIRA, Rosa Maria Vivona Bertolini. Web Semântica: Novo desafio para os profissionais da informação; http://www.abranet.org.br/historiadainternet/ocomeco.htm Bogo, Kellen Cristina. A História da Internet
Referências

Web Semântica Apresentação de Slides

  • 1.
    WEB SEMÂNTICA Recuperaçãoda Informação Prof. Fábio Assis Pinho . UNIVERSIDADE FEDERAL DE PERNAMBUCO
  • 2.
    Recuperação da Informação:Prof. Fábio Assis Pinho Apresentação: Ailton Pedro Aurélio Fernando Clodoaldo Santos Corina Nascimento José Aniceto José Ricardo Rafael Rodrigo WEB SEMÂNTICA Maio / 2009
  • 3.
    “ A WebSemântica é uma extensão da Web atual, onde a informação possui um significado claro e bem definido, possibilitando uma melhor interação entre computadores e pessoas”. WEB SEMÂNTICA Berners Lee.
  • 4.
    A História daWeb Corina Nascimento
  • 5.
    A História daInternet Fatos históricos Biblioteca de Alexandria, criada por Ptolomeu I (289 a.C.); Mundaneum, idealizado por Paul Otlet e Henri de La Fontaine, eles começaram a coletar dados de todos os livros, revistas, artigos já publicados, usando cartões de índice de 7 a 12 cm (o que havia de mais avançado na tecnologia de armazenamento)criando um banco de dados com mais de 12 milhões de entradas individuais ; Memex, máquina capaz de estocar grande quantidade de informação de forma fácil que permitisse uma rápida recuperação. Nunca foi construída, embora Vannevar Bush a enxergasse como a extensão natural das tecnologias existentes em 1945; Projeto Xanadu, criado por Theodore Nelson imaginando uma imensa rede de informações acessível em tempo real, contendo todo o saber literário e científico do mundo.
  • 6.
    A Evolução daInternet Durante a Guerra Fria, o departamento de defesa dos EUA, pensou em um sistema que interligasse vários pontos, de modo que não centralizasse o comando,(Anos 60/70); 1969 surge a ARPAnet (Advanced Research Projects Agency), rede que interligava originalmente vários centros de pesquisa; Início dos anos 80, foi desenvolvida uma nova utilidade para a ARPnet, interligar laboratórios e universidade nos EUA, surgiu o nome Internet; Final dos anos 80, a Internet passa a ser vista como um eficiente veículo de comunicação mundial, onde cientistas e acadêmicos passaram a utilizá-la mais intensamente (existia apenas em formato de texto, antigos arquivos Gopher; O Protocolo de comutação de pacotes originais usado pela ARPAnet era o NCP (Network Control Protocol), mudado para o TCP/IP (Transfer Control Protocol/Internet Protocol) desenvolvido pela UNIX. Anos 90, Tim Berners-Lee com sua equipe de pesquisadores, teve a idéia de desenvolver um sistema de hipertexto que deveria funcionar em redes de computadores;
  • 7.
    A Evolução daInternet 1991, esses pesquisadores tiveram a idéia de criar a Word Wide Web (maior parte das informações em formato de texto, com poucos desenhos) 1992 foi criado o Mosaic (capaz de interpretar gráficos e realizar navegações através de links), primeiro navegador para Internet, para sistema X Windows Em seguida apareceram versões do Mosaic para Macintosh e Microsoft Windows; Nos dias atuais os padrões com o qual as páginas são programadas são definidas pela W3C (World Wide Web Consortium), consórcio liderado por Tim Beeners-Lee, do qual fazem parte empresas como Microsoft, Apple, Sun e Netscape.
  • 8.
    A 1ª faserestringiu-se ao âmbito acadêmico; Em 1987 pesquisadores e técnicos da EMBRATEL se reuniram na USP, para discutir a montagem de uma rede que interligasse universidades brasileiras e internacionais; Em 1989 foi criada a RNP (Rede Nacional de Pesquisa), com o objetivo inicial de construir uma infraestrutura de rede nacional de âmbito acadêmico; Em 1991, a FAPESP (Fundação de Amparo à Pesquisa do Estado de São Paulo) estabeleceu a primeira conexão utilizando o padrão TCP/IP, permitindo a administração de domínio “.br” e a distribuição de endereços IP para todo o país. A Evolução da Internet no Brasil
  • 9.
    A Evolução daInternet no Brasil Em 1995, teve início o processo de abertura da Internet no país, por meio da EMBRATEL e da RNP; Em 1996, depois de autorizado pelo ministro das Comunicações, a Internet brasileira deixou de ser um privilégio de universidades e passou a ser explorada comercialmente.
  • 10.
    Números Tempo quenovas tecnologias levaram para atingir 50 milhões de usuários no mundo: Rádio 38 anos Computador 16 anos Televisão 13 anos TV a cabo 10 anos Internet 4 anos
  • 11.
    Estrutura e componentesda WEB O desenvolvimento da WEB, só foi possível a partir da definição de padrões abertos; Ao utilizar padrões disponíveis para todos, tornou-se mais fácil a adaptação das diferentes redes ou diferentes equipamentos utilizados; Já que sua proposta é a interconexão de redes de diversos tipos; Entre os padrões abertos, pode-se destacar o HTTP (Hypertext Transfer Protocol), que pode ser entendido como um conjunto de regras definidas para a comunicação entre os componentes da WEB.
  • 12.
    Outro componente fundamentalna Internet é o Identificador Único de Recurso(URI), codifica nomes dos recurso e respectivos endereços na Internet Um URI é um padrão que pode ser representado pelos conceitos de URL (Localizador Único de Recurso) e URN (Nome Único de Recurso) Estrutura e componentes da WEB
  • 13.
    URI é formadopor basicamente três partes: Estrutura e componentes da WEB
  • 14.
    Para disponibilização derecursos informacionais no ambiente WEB, são utilizados documentos informacionais chamados páginas WEB; Estas páginas são desenvolvidas utilizando linguagens computacionais denominadas linguagens de marcação; Ao invés de utilizar comandos e funções para realização de tarefas, utiliza “tags”, para marcar o conteúdo do documento; Estrutura e componentes da WEB
  • 15.
    A HTML (HypertextMarkup Language´) é considerada como a linguagem padrão para o desenvolvimento de páginas da WEB Derivada da linguagem SGML (Standard Generalized Markup Language) Utiliza o padrão ASCII, considerado como um formato de texto simples, que pode ser identificado de qualquer computador; A HTML representa os dados de forma simples, priorizando o modo de apresentação de conteúdos.Não possibilita a descrição de estruturas semânticas; Para marcar um trecho de texto informando que é um parágrafo, em HTML deve utilizar os tags <P> e </P> no início e no final do parágrafo. Um fator de limitação da HTML é que ela impossibilita a atribuição de significados aos conteúdos das páginas, trazendo assim um grande volume de dados não relevantes, dificultando a recuperação de informações. Falta de extensibilidade; Estrutura e componentes da WEB
  • 16.
    WEB SEMÂNTICA Vemse apresentando como a solução para ordenar o caos informacional existente na web; Possibilitará a compreensão e o gerenciamento dos conteúdos armazenados na web; O fantasma da perda de informação ou mensagens do tipo “Error 404: Not Found” deverão inexistir, ou estar sob controle; Para implementação ou reorganização da WEB SEMÂNTICA há um contingente de pesquisadores trabalhando no W3C, em países como EUA, França e Japão, com a missão de alavancar a web ao seu potencial máximo.
  • 17.
    Arquitetura daWeb Semântica Parte 1 Aurélio Fernando
  • 18.
    Introdução A internettornou-se um fenômeno mundial, sendo possível acessar informações em diversas partes do mundo instantaneamente. O volume destas informações alcançaram números impressionantes nos dias atuais.Entretanto o vasto número de documentos Web e a falta de padronização dessas informações originaram um problema para os usuários na hora de navegar na Internet e assim achar as informações desejadas. Esse problema é chamado de Information Overload . Esse problema é caracterizado quando uma pessoa, ao realizar uma consulta, obtém um número excessivo de informações como resposta e não consegue absorvê-las ou tratá-las, tendo que examinar todos os documentos resultantes para encontrar as informações desejadas. Como a maior parte das informações disponíveis na Internet, está disposta em linguagem natural, sendo compreensíveis apenas por humanos, houve a necessidade de uma semântica que permitisse uma padronização das informações sendo possível o processamento dessas informações por humanos e máquinas, surgindo assim a idéia do desenvolvimento da Web Semântica. O termo &quot;Semântica&quot; é definido como sendo o estudo do sentido das palavras.
  • 19.
    Arquitetura A Web Sem â ntica introduz estrutura e significado ao conte ú do dispon í vel na internet, visando transformar uma rede de documentos em uma rede de dados, co m preens í vel tanto para humanos quanto para computadores, de maneira a possibilitar que os ú ltimos cooperem melhor durante a realizac ã o de tarefas, ou quando da realização de um serviço aos usu á rios. O principal desa fio da Web Sem â ntica é criar uma linguagem que consiga expressar o significado e ao mesmo tempo estabelecer regras para processar esse significado de forma a inferir novos dados e regras. As regras para o processamento do significado devem ser exportadas para a web afim de permitir que outros sistemas inteligentes possam interagir. Na proposta de desenvolvimento da Web Sem â ntica é sugerida uma arquitetura de 3 camadas:
  • 20.
    Arquitetura A camadade Estrutura: que estrutura os dados e define seu significado; A camada ontologia: que define as relações entre os dados; A camada lógica: que define mecanismos para fazer inferências sobre os dados.
  • 21.
  • 22.
    Arquitetura Dados Regras de Inferência Camada de Estrutura Camada Lógica Web Semântica Camada de Ontologia … Camada de Estutura
  • 23.
    Arquitetura A camada de Estrutura: A camada de estrutura prov ê uma forma de definir os dados do documento e o significado associado a esses dados. Trata também da estruturação e disposição dos dados de forma que os programas que rodam na web possam fazer infer ê ncia a partir dos mesmos. Para que haja a representac ã o do conhecimento são necessarias t rês condições : Interoperabilidade estrutural: Permite que os dados sejam representados de forma distinta, permitindo especicar tipos e poss í veis valores para cada forma de representação ; Interoperabilidade sint á tica: Constitui - se de regras precisas que permitem o interc â mbio de dados na Web; Interoperabilidade Sem â ntica: Possibilita a compreens ã o e associação entre os dados. Para atender esses requisitos, utiliza-se XML e RDF .
  • 24.
    Arquitetura Dados Regras de Inferência Camada de Estrutura Camada Lógica Web Semântica Camada de Ontologia … Camada de Ontologia
  • 25.
    Arquitetura A camadaOntologia : Duas bases de dados podem utilizar terminologias diferentes para referir-se a mesma informação , resultando em divergências em um conjunto semântico de dados. Pode ocorrer também de uma mesma terminologia estar sendo utilizada com signicados diferentes, por aplicações distintas. Para tratar esses conflitos , existe a camada de ontologia que define mecanismos capazes de estabelecer um padrão entre as páginas da web.
  • 26.
    Ontologia A utilização das triplas <objeto, atributo, valor> garante a definição únicas dos conceitos, no entanto, o mesmo conceito pode ser expresso de forma diferente e em linguagens diferentes. Por exemplo, duas bases de dados podem armazenar os mesmos conceitos utilizando terminologias distintas. Para que a informação existente possa ser processada e relacionada é necessário que exista uma definição da relação entre os conceitos contidos em diferentes documentos. Para isso são utilizadas as ontologias. Uma ontologia pode ser definida como um conjunto de termos de conhecimento incluindo o vocabulário , interconexões semânticas e simples regras de inferência .
  • 27.
    Ontologia Com a introdução de ontologias, passa-se de um domínio de conceitos isolados na web, próprios de cada aplicação específica , para conceitos universalmente conhecidos entre as aplicações . As ontologias permitem expressar regras permitindo a um programa deduzir signicados da informação guardados no documento, ou seja, permitem manipular os termos de uma maneira mais útil e eficiente . Uma ontologia envolve a definição de uma hierarquia de classes e subclasses para os conceitos envolvidos.
  • 28.
    Arquitetura Camada LógicaDados Regras de Inferência Camada de Estrutura Camada Lógica Web Semântica Camada de Ontologia …
  • 29.
    Arquitetura É através da camada lógica que são possíveis os relacionamentos de informação e as inferências de conhecimento da Web Semântica . As regras de inferência fornecem aos agentes(programas) poder de raciocinar sobre os termos e seus significados , que foram definidos na camada esquema e de raciocinar a respeito dos relacionamentos entre os conceitos segundo a sua definição na camada ontologia . Os agentes são sistemas computacionais capazes de interagir autonomamente para atingir os objetivos do seu criador. Os agentes possuem algum as características como autonomia, reatividade (percebem o ambiente tomam as decisões ), têm comportamento colaborativo, possuem objetivos, são flexíveis , sociáveis e têm a capacidade de aprender. A Web Semântica possuirá vários agentes interagindo entre si, compreendendo, trocando ontologias, adquirindo novas capacidades racionais quando adquirirem novas ontologias e formando cadeias Fonte: Tim Berners-Lee, James Hendler, and Ora Lassila. The semantic web. Scientic American , pages 35{43, May 2001.
  • 30.
    Arquitetura daWeb Semântica Parte 2 AÍlton Pedro
  • 31.
    Arquitetura Web SemânticaPrimeira proposta divulgada publicamente no ano de 2000 pelo W3C (Tim Berners-Lee) Preocupação em desenvolver linguagens computacionais para estruturar recursos e descrever aspectos semânticos Não era suficiente apenas descrever os recursos informacionais sintaticamente, mas desenvolver tecnologias que permitissem descrever o significado das informações URI (Uniform Resource Identifier) – forma como identificamos um ponto de conteúdo na internet
  • 32.
    Linguagens de Representaçãode Recursos Informacionais Principais Linguagens Computacionais Padronizadas pelo W3C: XML (Extensible Markup Language) RDF (Resource Description Framework) OWL (Web Ontology Language)
  • 33.
    Linguagens de Representaçãode Recursos Informacionais XML Objetivos da linguagem: Direta e Objetiva Suporta ampla gama de aplicativos Compatível com SGML Fácil de desenvolver programas Número de recursos adicionais mínimos Documetos legíveis e claros Preparado rapidamente Design formal e conciso Documentos fáceis de serem criados A concisão na marcação é de importância mínima Importante característica : permite ao autor do documento a definição das suas próprias marcas, o que confere ao XML habilidades semânticas que possibilitam melhorias nos processos de recuperação e disseminação da informação
  • 34.
    RDF Modelo paradescrever recursos Baseado em um modelo de grafo no lugar de árvore Sintaxe: (Sujeito, Predicado, Objeto) Usa XML como sintaxe Melhora a descoberta, o acesso e o gerenciamento das informações da Web Linguagens de Representação de Recursos Informacionais
  • 35.
    OWL Recomendada peloW3C para o desenvolvimento de ontologias, definida a partir de: RDF e RDF Schema DAML+OIL Estrutura baseada nos seguintes elementos básicos: Namespaces; Cabeçalhos; Classes; Indivíduos; Propriedades; Restrições Linguagens de Representação de Recursos Informacionais
  • 36.
    OWL lite: versãosimplificada de OWL oferece primariamente hierarquias e restrições simples OWL DL aumenta a expressividade, mantendo decidibilidade OWL Full expressividade, sem garantia de decidibilidade Linguagens de Representação de Recursos Informacionais
  • 37.
    CONTEXTUALIZANDO A WEB SEMÂNTICA NO ÂMBITO DA CIÊNCIA DA INFORMAÇÃO José Aniceto
  • 38.
    A Ciência daInformação tem como um de seus objetivos estudar e desenvolver métodos e técnicas para o melhoramento dos processos de armazenamento, organização e recuperação de informação, considerando também aspectos científicos e profissionais que obtém dimensões sociais e humanas, que se apresenta com maior relevância do que os aspectos tecnológicos. CONTEXTUALIZANDO A WEB SEMÂNTICA NO ÂMBITO DA CIÊNCIA DA INFORMAÇÃO. DIFERENTES CONCEITOS AO SE REFERIR AO TERMO INFORMAÇÃO.
  • 39.
    CIÊNCIA DA INFORMAÇÃO X CIÊNCIA DA COMPUTAÇÃO. No âmbito da área de Ciência da Informação é evidente a presença de componentes semânticos em tal processo, pois para o usuário as informações recuperadas possuem um significado semântico implícito. O projeto Web Semântica baseia-se na possibilidade de categorias que possam ser interpretadas automaticamente pelos computadores.
  • 40.
    ONTOLOGIAS COMO INSTRUMENTOSDE REPRESENTAÇÃO Com o grande aumento na quantidade de recursos informacionais, é necessário relaciona-los e organiza-los de maneira adequada, com isso observo-se a necessidade de instrumentos que possibilitem descrever níveis de relacionamentos mais avançados e que possam ser processados de forma automatizada por computadores os quais vem sendo denominados como ontologias.
  • 41.
    MODELOS CONCEITUAIS AUTOMÁTICOSAs ontologias funcionam de maneira muito parecida com o nosso cérebro. Usando as ontologias uma máquina simples pode fazer coisas que humanos fazem no dia-a-dia, com limites, é claro. Uma ontologia pode assumir vários formatos, mas necessariamente deve incluir um vocabulário de termos e alguma especificação de seu significado. Elas devem obter em seu campo conceitos e uma indicação de como estes deverão estar inter-relacionados.
  • 42.
    TESAURO X ONTOLOGIAS
  • 43.
    A Web Semânticasob o prisma da Ciência da Informação José Ricardo
  • 44.
    A Web Semânticasob o prisma da ciência da Informação Objetivo da Web Semântica A contribuição da Ciência da Informação para o projeto web semântico. Exemplo: O formato Marc 21 (Machine Readable Cataloging) Originado em 1998 e a sua versão em XML.
  • 45.
    Exemplos É possívelidentificar atualmente alguns projetos que têm como principal objetivo o desenvolvimento de novas tecnologias no âmbito de bibliotecas digitais utilizando-se das tecnologias relacionadas ao projeto Web Semântica, entre os quais pode-se destacar o JeromeDL e o MarcOnt.
  • 46.
    JeromeDL Reconnecting DigitalLibraries and the Semantic Web , o projeto JeromeDL consiste de uma biblioteca digital de código aberto baseada nas principais tecnologias presentes no projeto Web Semântica, permitindo a descrição de recursos a partir da linguagem computacional RDF e a realização de buscas semânticas baseadas em ontologias, possibilitando uma melhora considerável na precisão das buscas e um maior nível de interoperabilidade.
  • 47.
  • 48.
    MarcOnt o principalobjetivo deste projeto é criar uma ontologia capaz de tornar-se um padrão de representação de informações para bibliotecas digitais, possibilitando a descrição dos aspectos semânticos dos conteúdos e favorecendo a integração de bibliotecas. Assim, está em fase de desenvolvimento e avaliação a ontologia MarcOnt, desenvolvida utilizando-se a linguagem OWL, de modo que se espera que tal ontologia seja compatível com o formato MARC 21, permitindo que as descrições semânticas possam ser convertidas para outros formatos, possibilitando grande interoperabilidade e o reaproveitamento das bases de conhecimento, por meio da incorporação de outras ontologias que sigam os mesmos critérios.
  • 49.
  • 50.
    Ciência da Informaçãoe Web semântica Juntas propriciam meios mais adequados de representar e organizar conteúdos informacionais, possibilitando responder de maneira mais eficiente às buscas realizadas pelos usuários finais.
  • 51.
    RECUPERAÇÃO DA INFORMAÇÃONA WEB SEMÂNTICA Clodoaldo Santos & Rafael Rodrigo
  • 52.
    OBJETIVOS DIMINUIR OCAOS DE EXCESSO DE INFORMAÇÕES ESTRUTURAR A INFORMAÇÃO COM BASES SÓLIDAS DINAMIZAR O RELACONAMENTO HOMEM-MÁQUINA MELHOR QUALIDADE DE REVOCAÇÃO E PRECISÃO
  • 53.
    O QUE FALTA? CONHECIMENTO MAIS APROFUNDADO DOS PROGRMADORES DE PÁGINAS WEB ADOÇÃO DA TECNOLOGIA PELOS SITES DE BUSCA INFRA ESTRUTURA PARA ARMAZENAMENTO E DISSEMINAÇÃO ATUALIZAÇÃO DA WEB
  • 54.
    COMO RECUPERAR Estratégia: Arte de aplicar os meios disponíveis com vista à consecução de objetivos específicos. Busca: Procura com o fim de encontrar alguma coisa Tática: Processo empregado para sair-se bem num empreendimento
  • 55.
    ESTRATÉGIA DE BUSCA Oldroyd & Citroen (1977) identificaram três grandes etapas para decisão no processo de planejamento da estratégia de busca: decisão sobre qual a melhor base de dados para um determinado tema; decisão referente à seleção dos termos de busca e sua adequação para a base a ser consultada; decisão sobre a formulação lógica da estratégia. É sabido que a maior parte dos usuários, ao realizar uma busca, acredita possuir uma boa compreensão dos próprios problemas. A tarefa do intermediário junto aos sistemas é ajudar o usuário a definir e especificar o problema, com termos e conceitos que são apropriados para aquela fonte de informação específica que será utilizada para a busca. Ou seja, os termos usados em uma determinada área do conhecimento devem ajustar-se àqueles usados nas bases de dados mais relevantes que serão consultadas.
  • 56.
    ESTRATÉGIA DE BUSCA– ETAPAS 1ª Etapa: Discussão do tópico geral da pesquisa É útil perguntar como os resultados da busca irão ser aplicados, porque a resposta pode mudar a direção ou a ênfase da busca. 2ª Etapa: Conhecimentos básicos sobre os instrumentos de busca Isto pode ajudar a definir o tópico e gerar uma lista das palavras chave a serem usadas na estratégia de busca 3ª Etapa: Formulação “provisória” da estratégia de busca A busca estará bem definida se o intermediário for capaz de assegurar a recuperação de todas as citações para vários termos. Porem, é desejável que para informações mais complexas, seja usado pelo menos dois conjuntos de termos.
  • 57.
    ESTRATÉGIA DE BUSCA– ETAPAS 4ª Etapa: Compreensão da lógica dos conjuntos de termos O uso da interseção de mais de dois conjuntos de termos deve ser evitado, porque, embora os resultados possam ser bem precisos, eles serão limitadores e podem provocar uma possível exclusão de informações relevantes. 5ª Etapa: Interdisciplinaridade Realizar a expansão da busca em outros campos, aumentando consequentemente as possibilidades de documentos de interesse virem a ser recuperados.
  • 58.
    ESTRATÉGIA DE BUSCA– ETAPAS 6ª Etapa: Eliminação de termos indesejados Os termos indesejados serão excluídos do resultado da busca depois de se ver o impacto dessa exclusão no resultado total da busca. A decisão para excluir termos nem sempre é fácil e, visualmente, depende da especificação do tópico. 7ª Etapa: Especificação dos parâmetros relevantes para a execução da busca Todos os parâmetros relevantes devem ser considerados para se determinarem os limites da busca. Deve a busca ser limitada nos anos mais recentes? Quais as bases de dados que provavelmente irão fornecer as mais relevantes citações? O pesquisador quer todas as citações que mencionam uma autoridade particular ou somente as que são autorizadas por uma pessoa particular?
  • 59.
    FUNCIONALIDADE UTILIZAR OVASTO REPOSITÓRIO DE INFORMAÇÕES DISPONÍVEL DA WEB DE MANEIRA MAIS PRODUTIVA, ÁGIL E SIGNIFICATIVA. PROPORCIONAR AO INDIVÍDUO TUDO DE FORMA ORDENADA, MINIMIZANDO A QUANTIDADE DE BUSCA.
  • 60.
  • 61.
    Referências RAMALHO, RogérioAparecido Sá. Web Semântica: aspectos interdisciplinares da gestão de recursos informacionais no âmbito da Ciência da Informação; The New York Time, Museu belga revela a internet de papel do início do século 20; OLIVEIRA, Rosa Maria Vivona Bertolini. Web Semântica: Novo desafio para os profissionais da informação; http://www.abranet.org.br/historiadainternet/ocomeco.htm Bogo, Kellen Cristina. A História da Internet
  • 62.