Obtendo Informação Útil em Dados Semi-Estruturados da Web

2.075 visualizações

Publicada em

Trata da Mineração Web, do uso dos microformatos e da ferramenta MicroMining - um ambiente web para a mineração de conteúdo de revisões usando o hReview. Foi realizado um exemplo prático com o Weka.

Publicada em: Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
2.075
No SlideShare
0
A partir de incorporações
0
Número de incorporações
19
Ações
Compartilhamentos
0
Downloads
75
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide
  • Obtendo Informação Útil em Dados Semi-Estruturados da Web

    1. 1. Obtendo Informação Útil em Dados Semi-Estruturados na Web Mestrado em Sistemas e Computação Mineração de Dados Prof. Manoel Mendonça Luiz Matos – luizmatos.eti.br Salvador, Fevereiro de 2008
    2. 2. <ul><li>Introdução </li></ul><ul><li>Mineração Web </li></ul><ul><li>Micro-formatos </li></ul><ul><li>Exemplo Prático </li></ul><ul><li>Considerações Finais </li></ul><ul><li>Referências </li></ul>AGENDA
    3. 3. INTRODUÇÃO <ul><li>Motivação </li></ul><ul><ul><li>O usuário da Web, além de consumidor, torna-se produtor de informação ; </li></ul></ul><ul><ul><li>Crescimento significativo da quantidade de informação disponível; </li></ul></ul><ul><ul><li>Maior complexidade no processo de obtenção de informação útil. </li></ul></ul>
    4. 4. INTRODUÇÃO <ul><li>Usuários de Internet no mundo em 2007: ~1,3 bi (STATS, 2008) </li></ul><ul><li>Média de crescimento entre 2000 e 2007: ~ 265% (STATS, 2008) </li></ul><ul><li>Páginas indexadas pelo Google em 2006: ~20 bi (ALLSOPP, 2007; GOOGLE SEARCH, 2008) </li></ul>(STATS, 2008)
    5. 5. Resultados de busca em google.com no dia 20 /02/2008. (palavra-chave: filetype:arq ) <ul><li>Sabendo-se que a Web é/tem muito mais que isso, surge um problema ... </li></ul><ul><li>Como extrair significado deste enorme conjunto de recursos? </li></ul>INTRODUÇÃO Usuários da Internet no Mundo Quantidade Tipo de Arquivos 5.541.770 Diversos 6.258.667.848 TOTAL 4.905.466 Pacotes 28.021.500 Web Semântica 3.404.532 Multimídia 170.369.580 Documentos/Programas 6.046.425.000 Páginas Web
    6. 6. <ul><li>Objetivo </li></ul><ul><ul><li>Aplicar os conceitos relacionados a mineração de dados na web e micro-formatos para extrair informação útil em sites com dados semi-estruturados. </li></ul></ul><ul><li>Metodologia </li></ul><ul><ul><li>Levantamento bibliográfico; </li></ul></ul><ul><ul><li>Leitura e sumarização das idéias; </li></ul></ul><ul><ul><li>Implementação do exemplo prático; </li></ul></ul><ul><ul><li>Documentação (artigo + apresentação). </li></ul></ul>INTRODUÇÃO
    7. 7. <ul><li>O que é? </li></ul><ul><li>Uso das técnicas da Mineração de Dados para descoberta e análise de informações úteis da Web. </li></ul><ul><li>Por quê? </li></ul><ul><li>Descobrir conhecimento novo e relevante dos dados Web, onde seja possível demonstrar: </li></ul><ul><ul><li>Características; </li></ul></ul><ul><ul><li>Comportamentos; </li></ul></ul><ul><ul><li>Tendências, e; </li></ul></ul><ul><ul><li>Padrões de navegação do usuário Web. </li></ul></ul>MINERAÇÃO WEB (MOBASHER e outros apud MACHADO, 2002)
    8. 8. <ul><li>Categorias </li></ul><ul><li>Mineração do Conteúdo : descoberta de informações úteis no conteúdo das páginas e documentos Web. </li></ul><ul><li>Mineração da Estrutura : descoberta de informações úteis com base na estrutura de hyperlinks da Web. </li></ul><ul><li>Mineração do Uso : descoberta de padrões de acesso do usuário com base nos logs da Web. </li></ul>MINERAÇÃO WEB (KOSALA e BLOCKEEL apud MACHADO, 2002)
    9. 9. <ul><li>Estado da Arte </li></ul><ul><ul><li>Extração e integração de informação obtida em várias fontes de conteúdo; </li></ul></ul><ul><ul><li>Mineração de texto e categorização de páginas; </li></ul></ul><ul><ul><li>Análise de hyperlinks – técnicas e aplicações; </li></ul></ul><ul><ul><li>Ranking de páginas; </li></ul></ul><ul><ul><li>Compreensão do perfil de usuários e padrões de navegação. </li></ul></ul>MINERAÇÃO WEB (DESIKAN e outros, 2007)
    10. 10. <ul><li>O que são? </li></ul><ul><li>Um conjunto de formatos de dados simples construídos sobre padrões existentes e adotados em larga escala. (ALLSOPP, 2007) </li></ul><ul><li>Por quê? </li></ul><ul><li>- Resolver o problema de criação de uma semântica de marcação para a Web atual; </li></ul><ul><li>- Enquanto mecanismos mais complexos, como o RDF, não se estabelecem aplica-se a “lowercase semantic web ”. </li></ul><ul><li>Princípios </li></ul><ul><ul><li>Resolver um problema específico; </li></ul></ul><ul><ul><li>Ser tão simples quanto possível; </li></ul></ul><ul><ul><li>Primeiramente para humanos, depois para máquinas. </li></ul></ul>MICRO-FORMATOS
    11. 11. <ul><li>Especificações em Micro-formatos( µFs): </li></ul><ul><ul><li>hCard: informações de contato de pessoas ou organizações. </li></ul></ul><ul><ul><li>hCalendar: informações de eventos (seminários, reuniões, etc). </li></ul></ul><ul><ul><li>XFN: relacionamentos entre pessoas (e.g., quem conhece quem, quem tem amigos em comum, etc). </li></ul></ul><ul><ul><li>hReview: revisões/avaliações na Web. </li></ul></ul><ul><ul><li>hResume: publicação de curriculum. </li></ul></ul><ul><ul><li>hGene: representação de genes (biologia). </li></ul></ul><ul><ul><li>geo: marcação de coordenadas geográficas. </li></ul></ul><ul><ul><li>Entre outras.. </li></ul></ul>MICRO-FORMATOS
    12. 12. <ul><li>Exemplo hCard </li></ul>MICRO-FORMATOS <ul><li>Exemplo XHTML Friends Network (XFN) </li></ul>
    13. 13. <ul><li>Estado da Arte </li></ul><ul><ul><li>Micro-formatos + RDF + OWL + GRDDL; </li></ul></ul><ul><ul><li>- Como em (QUINT et all , 2006), (SCHAPRANOW, 2006) e (THOMPSON et al , 2007). </li></ul></ul><ul><ul><li>Adoção pelos “gigantes” da computação e Internet; </li></ul></ul><ul><li> - “We need microformats.” (Bill Gates) </li></ul><ul><ul><li>Adoção pela indústria dos navegadores: </li></ul></ul><ul><ul><li>- Plugins Firefox: Operator, Tails Export </li></ul></ul>MICRO-FORMATOS
    14. 14. <ul><li>Estado da Arte </li></ul><ul><ul><li>Serviços online e ferramentas de blogging ; </li></ul></ul><ul><ul><li>- Technorati.com e plugin WordPress </li></ul></ul><ul><ul><li>Certa concordância com os preceitos da W3C; </li></ul></ul><ul><ul><li>- “The Semantic Web is an extension of the current Web in which information is given well-defined meaning, better enabling computers and people to work in cooperation.” ( Tim Berners-Lee) </li></ul></ul><ul><ul><li>RDFa o “micro-formato oficial” da Web Semântica. </li></ul></ul>MICRO-FORMATOS
    15. 15. <ul><li>Mineração Web e Micro-formatos: tendências. </li></ul>(GOOGLE TRENDS, 2008) (KHARE apud SCHAPRANOW, 2006)
    16. 16. EXEMPLO PRÁTICO <ul><li>Cenário </li></ul><ul><li>Imagine que você precisa comprar um livro. Antes de sair navegando entre os diversos sites de editoras, livrarias ou lojas especializadas, você quer saber qual foi a avaliação de seus amigos, profissionais, ou especialistas sobre o livro. </li></ul><ul><li>Para isso, você acessa suas páginas pessoais ou blogs e analisa suas avaliações. Mas.. Quantas serão consideradas suficientes? Como encontrar estas informações? De que forma elas estarão disponíveis? </li></ul><ul><li>Independente do formato utilizado , o primeiro passo é centralizar todas as páginas e transformá-las em uma linguagem comum. Após isso, basta efetuar as consultas necessárias e obter suas respostas. </li></ul>
    17. 17. EXEMPLO PRÁTICO <ul><li>Metodologia </li></ul><ul><li>Seleção de dados: escolha de avaliações publicadas na Web em páginas de lojas virtuais. Foi desenvolvido um formulário que mediante o preenchimento manual das avaliações gera automaticamente o código XHTML com o micro-formato hReview. </li></ul><ul><li>Pré-processamento: inserção destes blocos de avaliações em um arquivo XHTML, formando um conjunto de dados de 60 (sessenta) avaliações diferentes. Validação do arquivo XHTML via serviço disponibilizado pelo W3C. </li></ul><ul><li>Transformação: conjunto de dados XHTML para RDF utilizando um processamento GRDDL, através do GRDDL Service disponibilizado pelo W3C. </li></ul><ul><li>Consultas e Mineração: foram realizadas consultas com a SPARQL no conjunto de dados RDF, permitindo que algumas interpretações simples fossem realizadas (ex., analisar as avaliações de determinado livro). </li></ul><ul><li>Uma destas consultas permite a geração de um arquivo ARFF, adequado para o software WEKA, possibilitando a aplicação de técnicas de Mineração de Dados para a identificação de padrões e formalização do processo de descoberta de conhecimento. </li></ul>
    18. 18. EXEMPLO PRÁTICO <ul><li>Etapas da Metodologia </li></ul><ul><li>Tecnologias Utilizadas </li></ul>RDF API for PHP
    19. 19. <ul><li>DEMONSTRAÇÃO </li></ul><ul><ul><li>Ambiente MicroMining </li></ul></ul><ul><ul><li>hReview Creator; </li></ul></ul><ul><ul><li>Arquivo de Revisões (XHTML+hReview); </li></ul></ul><ul><ul><li>Validação e Transformação; </li></ul></ul><ul><ul><li>Arquivo e Grafo RDF; </li></ul></ul><ul><ul><li>Consultas; </li></ul></ul><ul><ul><li>Arquivo ARFF; </li></ul></ul><ul><ul><li>Mineração de Dados no WEKA. </li></ul></ul>EXEMPLO PRÁTICO
    20. 20. Ambiente desenvolvido para a realização do exemplo prático MicroMining
    21. 21. Formulário para a geração do conteúdo com micro-formato hReview Creator
    22. 22. Trecho de código da avaliação (XHTML + hReview) gerado Visualização no navegador do código gerado Arquivo de Revisões (XHTML+hReview)
    23. 23. Serviços utilizados para Validação e Transformação do conjunto de dados
    24. 24. Visualização do conjunto de dados transformado e do grafo RDF
    25. 25. Formulário para a realização de consultas SPARQL no conjunto de dados
    26. 26. Resultado da consulta SPARQL que retorna todas as avaliações disponíveis SELECT DISTINCT ?bookname ?rating ?title ?description ?name ?locality WHERE { ?element rev:hasReview ?review; vcard:ADR ?addr; vcard:FN ?bookname . ?review rev:reviewer ?reviewer; rev:rating ?rating; dc:title ?title; dc:description ?description . ?reviewer foaf:name ?name . ?addr vcard:Locality ?locality }
    27. 27. Resultado da consulta SPARQL que retorna todas as avaliações de livros com nota maior que 4 SELECT ?bookname ?rating ?title ?description ?name ?locality WHERE { ?element rev:hasReview ?review; vcard:ADR ?addr; vcard:FN ?bookname . ?review rev:reviewer ?reviewer; rev:rating ?rating; dc:title ?title; dc:description ?description; rev:createdOn ?date . ?reviewer foaf:name ?name . ?addr vcard:Locality ?locality . FILTER(?rating > &quot;4&quot;) }
    28. 28. Resultado da consulta SPARQL que retorna todas as avaliações de livros cujo assunto é Java SELECT ?bookname ?rating ?title ?description ?name ?locality WHERE { ?element rev:hasReview ?review; vcard:ADR ?addr; vcard:FN ?bookname . ?review rev:reviewer ?reviewer; rev:rating ?rating; dc:title ?title; dc:description ?description . ?reviewer foaf:name ?name . ?addr vcard:Locality ?locality . FILTER (REGEX(?bookname, &quot;java&quot;, &quot;i&quot;)). }
    29. 29. Resultado da consulta SPARQL que retorna todas as avaliações de pessoas que moram em Salvador SELECT ?bookname ?rating ?title ?description ?name ?locality WHERE { ?element rev:hasReview ?review; vcard:ADR ?addr; vcard:FN ?bookname . ?review rev:reviewer ?reviewer; rev:rating ?rating; dc:title ?title; dc:description ?description . ?reviewer foaf:name ?name . ?addr vcard:Locality ?locality . FILTER(REGEX(?locality, &quot;Salvador&quot;, &quot;i&quot;)) }
    30. 30. Arquivo ARFF gerado após consulta SPARQL no conjunto de dados RDF
    31. 31. Etapa de Mineração de Dados no WEKA Visualização da quantidade de revisões por cidade ( locality ) Visualização da quantidade de revisões por assunto
    32. 32. Etapa de Mineração de Dados no WEKA Visualização da quantidade de revisões por cidade e assunto Visualização da quantidade de revisões por assunto e nota ( ratin g)
    33. 33. Etapa de Mineração de Dados no WEKA Resultado do processamento do algoritmo EM de clusterização. Identificados 2 clusters no atributo assunto do livro Identificados 2 clusters no atributo localidade Identificado 1 cluster no atributo nome do livro
    34. 34. Etapa de Mineração de Dados no WEKA Notas ( rating ) Assunto do livro ( booksubject )
    35. 35. <ul><li>Toda e qualquer maneira de dar maior significado ao conteúdo web beneficia a mineração de informação útil; </li></ul><ul><li>O processo de descoberta de conhecimento ocorreu naturalmente, com maiores esforços na fase de pré-processamento dos dados; </li></ul><ul><li>Extração e integração automática para obter um universo maior de revisões; </li></ul><ul><li>Prova de conceito realizada com sucesso. </li></ul>CONSIDERAÇÕES FINAIS
    36. 36. <ul><li>Allsopp, John. Microformats: empowering your markup for web 2.0. New York: Springer, 2007. </li></ul><ul><li>Berners-Lee, Tim. Information Management: a proposal. 1989. Disponível em: <http://www.w3.org/History/1989/proposal.html>. Acesso em: 03 mar. 2008. </li></ul><ul><li>Berners-Lee, Tim; Hendler, James; Lassila, Ora. The Semantic Web: a new form of Web content that is meaningful to computers will unleash a revolution of new possibilities. Scientific American 284, pp. 34–43, 2001. </li></ul><ul><li>Brin, Sergey; Page, Lawrence. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Computer Networks and ISDN Systems, v. 30, n. 1-7, pp. 107-117, April 1998. </li></ul><ul><li>Desikan, P., Srivastava, J., Kumar, V. and Tan, P. N., Hyperlink Analysis: Techniques and Applications. Technical Report 2002-0152, Army High Performance Computing and Research Center, 2002. </li></ul><ul><li>Desikan, Prasanna; Delong, Colin; Mane, Sandeep; Beemanapalli, Kalyan; Hsu, Kuo-Wei; Sriram, Prasad; Srivastava, Jaideep; Vanuturumilli, Vamsee. Web Mining for Business Computing. In: Handbook in Information Systems, 2007. </li></ul><ul><li>Dodds, Leigh. Introducing SPARQL: querying the semantic web. Disponível em: <http://www.xml.com/lpt/a/1628>. Acesso em: 20 fev. 2008. </li></ul><ul><li>Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic. From Data Mining to Knowledge Discovery in Databases. Artificial Intelligence Magazine, American Association for Artificial Intelligence, 1996. </li></ul><ul><li>Google Search. Disponível em: <http://en.wikipedia.org/wiki/Google_search>. Acesso em: 23 fev. 2008. </li></ul><ul><li>GRDDL. Gleaning Resource Descriptions from Dialects of Languages. Disponível em: <http://www.w3.org/TR/grddl/>. Acesso em: 21 fev. 2008. </li></ul><ul><li>Halpin, Harry. Procedural versus Declarative Semantics on the Web: microformats, GRDDL, and RDFa. University of Edinburgh, 2007. </li></ul><ul><li>Khare, Rohit; Çelik, Tantek. Microformats: a pragmatic path to the semantic web. WWW 2006, Maio, 2006. </li></ul><ul><li>Kosala, R.; Blockell, H. Web Mining Research: a survey. SIGKDD Explorations, vol. 2, 2000. In: Machado, Letícia dos Santos. Mineração do Uso da Web na Educação a Distância. Dissertação de Mestrado, PUC/RS, PPGCC, 2002. </li></ul>REFERÊNCIAS
    37. 37. <ul><li>Machado, Letícia dos Santos. Mineração do Uso da Web na Educação a Distância: propostas para a condução de um processo a partir de um estudo de caso. Dissertação de Mestrado, PUC/RS, Programa de Pós-Graduação em Ciência da Computação, 2002. </li></ul><ul><li>Microformats. Website dos Micro-formatos. Disponível em: <http://www.microformats.org>. Acesso em: 20 fev. 2008. </li></ul><ul><li>Mobasher, Bamshad; Jain, Namit; Han, Eui-Hong; Srivastava, Jaideep. Web Mining: pattern discovery from world wide web transactions. University of Minnesota, Dept. Of Computer Science, Minneapolis, Technical Report TR 96-050, 1996. In: Machado, Letícia dos Santos. Mineração do Uso da Web na Educação a Distância. Dissertação de Mestrado, PUC/RS, PPGCC, 2002. </li></ul><ul><li>Nakahira, Katsuko T.; Matsui, Masashi; Mikami, Yoshiki. The Use of XML to Express a Historical Knowledge Base. In: WWW 2007, Canada, Maio 2007. </li></ul><ul><li>Quint, Vincent; Vatton, Irène; Flores, Francesc Campoy. Templates, Microformats and Structured Editing. Document Engineering 06, Out. 2006. </li></ul><ul><li>RDF. Resource Description Framework (RDF): Concepts and Abstract Syntax. W3C Recommendation, 2004. Disponível em: <http://www.w3.org/TR/rdf-concepts/>. Acesso em: 22 fev. 2008. </li></ul><ul><li>Rezende, Solange Oliveira. Mineração de Dados. [s.d.] Disponível em: <http://www.addlabs.uff.br/enia_site/dw/mineracaodedados.pdf>. Acesso em: 03 jan. 2008. </li></ul><ul><li>Schapranow, Matthieu-P. Microformats: a XML-document-immanent way for semantic annotations of web contents. University of Potsdam, Hasso-Plattner-Institute for IT Systems Engineering, 2006. </li></ul><ul><li>SPARQL. Query Language for RDF W3C Recommendation, 2008. Disponível em: <http://www.w3.org/TR/rdf-sparql-query/ >. Acesso em: 22 fev. 2008. </li></ul><ul><li>Stats. Internet World Stats. Disponível em: <http://www.internetworldstats.com/ stats.htm>. Acesso em: 22 fev. 2008. </li></ul><ul><li>WEKA. Waikato Environment for Knowledge Analysis. Disponível em: <http://www.cs.waikato.ac.nz/ ml/weka/>. Acesso em: 05 fev. 2008. </li></ul>REFERÊNCIAS
    38. 38. (DESIKAN e outros, 2007) Taxonomia da Mineração Web Perspectiva do usuário Perspectiva do criador

    ×