Web Mining

1.732 visualizações

Publicada em

Introdução à mineração web.

Publicada em: Tecnologia
0 comentários
1 gostou
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
1.732
No SlideShare
0
A partir de incorporações
0
Número de incorporações
268
Ações
Compartilhamentos
0
Downloads
0
Comentários
0
Gostaram
1
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide
  • Alessandra Galdo
  • Web Mining

    1. 1. <ul><ul><li>Mineração de conteúdo; </li></ul></ul><ul><ul><li>Mineração de estrutura; </li></ul></ul><ul><ul><li>Mineração de uso. </li></ul></ul>Web Mining Alessandra Galdo Mestrado em Ciência da Informação – UFSC PCI3214 – Recuperação Inteligente de Informação Prof. Dr. Angel Freddy Godoy Viera Aluna: Alessandra Galdo
    2. 2. Mineração de conteúdo <ul><li>Mineração dos dados dentro dos documentos. </li></ul><ul><li>Tipos variados de conteúdo: </li></ul><ul><ul><li>textos em PDF, </li></ul></ul><ul><ul><li>páginas HTML, </li></ul></ul><ul><ul><li>imagens, </li></ul></ul><ul><ul><li>áudio, </li></ul></ul><ul><ul><li>vídeo, </li></ul></ul><ul><ul><li>etc. </li></ul></ul><ul><li>Mineração de texto </li></ul>Alessandra Galdo
    3. 3. Mineração em documentos HTML Alessandra Galdo
    4. 4. Mineração em documentos HTML <ul><li><html> </li></ul><ul><li><head> </li></ul><ul><li><meta http-equiv=&quot;Content-Type&quot; content=&quot;text/html; charset=windows-1252&quot;> </li></ul><ul><li><meta name=&quot;GENERATOR&quot; content=&quot;Microsoft FrontPage 5.0&quot;> </li></ul><ul><li><meta name=&quot;ProgId&quot; content=&quot;FrontPage.Editor.Document&quot;> </li></ul><ul><li><title>Nova pagina 2</title> </li></ul><ul><li><base target=&quot;_self&quot;> </li></ul><ul><li></head> </li></ul><ul><li><body bgcolor=&quot;#FFFFFF&quot; text=&quot;#000080&quot;> </li></ul><ul><li><p class=&quot;MsoNormal&quot; align=&quot;left&quot;> <b> <font face=&quot;Arial&quot; size=&quot;4&quot; color=&quot;#3366CC&quot;> Mestrado </li></ul><ul><li>em Ciência da Informação <br> </li></ul><ul><li>&nbsp;</font> </b> </p> </li></ul><ul><li><h1 style=&quot;line-height: 100%; mso-line-height-rule: exactly; margin: 0&quot; align=&quot;left&quot;><font color=&quot;#000080&quot;>&nbsp;<o:p> </li></ul><ul><li></o:p> </li></ul><ul><li></font></h1> </li></ul><ul><li><p style=&quot;line-height: 150%; mso-line-height-rule: exactly; margin: 0&quot; align=&quot;left&quot;><font face=&quot;Arial&quot; size=&quot;4&quot; color=&quot;#3366CC&quot;> </li></ul><ul><li><b>Objetivo</b><o:p> </li></ul><ul><li></o:p> </li></ul><ul><li></font></p> </li></ul><ul><li><p style=&quot;text-indent: 0cm; line-height: 150%; mso-line-height-rule: exactly; margin: 0&quot; align=&quot;left&quot;><font face=&quot;Arial&quot; size=&quot;3&quot; color=&quot;#000000&quot;>&nbsp;<o:p> </li></ul><ul><li></o:p> </li></ul><ul><li></font></p> </li></ul><ul><li><p style=&quot;line-height: 150%; mso-line-height-rule: exactly; margin: 0&quot; align=&quot;left&quot;><font face=&quot;Arial&quot; size=&quot;3&quot; color=&quot;#000000&quot;>O </li></ul><ul><li>Mestrado em Ciência da Informação da UFSC visa formar </li></ul><ul><li>pessoal de alto nível com competência para: </font> </li></ul>Alessandra Galdo
    5. 5. Mineração de estrutura Neste exemplo temos seis páginas nomeadas de A-F. A página B tem 3 links que direcinoam a ela, e um link direcionando pra fora. Este exemplo de gráfico não tem todas as variáveis conectadas entre si: não há, conexão das páginas B-F à página A. Fonte : MANNING, C.D.; RAGHAVAN, P.; SCHUTZE, H.I. Chapter 19. Web search basics. In: An introduction to information retrieval. Cambridge: Cambridge University Press, 2007, p. 321- 339. Alessandra Galdo
    6. 6. Mineração de estrutura <ul><li>Mineração dos dados entre dos documentos. </li></ul><ul><li>Definição de topologia; </li></ul><ul><li>Como os documentos se relacionam. </li></ul><ul><li>Análise dos hiperlinks; </li></ul><ul><li>In-links e out-links; </li></ul><ul><li>Determinação de Rankings; </li></ul><ul><li>Mineração de links implícitos: Mineração de citações </li></ul>Alessandra Galdo
    7. 7. Mineração de estrutura <ul><li>Dificuldade: </li></ul><ul><li>trata-se de uma estrutura dinâmica, os links mudam constantemente; </li></ul><ul><li>Muitas páginas são geradas dinamicamente, ou seja, a partir de um request do usuário. </li></ul><ul><li>O tamanho (!!!) da estrutura. </li></ul>Alessandra Galdo
    8. 8. Mineração de uso <ul><li>Mineração sobre como o usuário interage com as informações na Web. </li></ul><ul><li>Logs de atividades; </li></ul><ul><li>Objetivos: </li></ul><ul><ul><li>customização ou personalização das páginas; </li></ul></ul><ul><ul><li>interfaces adaptativas; </li></ul></ul><ul><ul><li>identificação de perfis de usuários; </li></ul></ul><ul><ul><li>publicidade. </li></ul></ul>Alessandra Galdo
    9. 9. Spiders web inteligentes ( Web spiders ou crawlers ou webbots) <ul><li>Softwares que percorrem a World Wide Web por meio dos hipertextos recuperando documentos web a partir do protocolo HTTP. </li></ul><ul><li>Programas que vasculham a internet catalogando páginas e palavras relacionadas a elas, influenciando na posição em que as páginas aparecem nas ferramentas de busca em função de sua relevância. </li></ul>Alessandra Galdo
    10. 10. Spiders web inteligentes Modelo de um motor de busca e seus componentes: o crawler, bem como os indexes de páginas com referência direta ao termo pesquisado (resultados da busca) e os indexes de propagandas/patrocínio. A porção da figura localizada abaixo da curva pontilhada está dentro do motor de busca. Fonte : MANNING, C.D.; RAGHAVAN, P.; SCHUTZE, H.I. Chapter 19. Web search basics. In: An introduction to information retrieval. Cambridge: Cambridge University Press, 2007, p. 321- 339. Alessandra Galdo
    11. 11. Spiders web inteligentes <ul><li>Desde os primordios da web, spiders tem sido amplamente utilizados nas estruturas dos bancos e dados das ferramentas de busca ou coletar estatísticas. </li></ul><ul><li>Alguns spiders usam algoritmos simples, outros usam algoritmos avançados, como os chamados algoritmos genéticos. </li></ul><ul><li>Algoritmos genéticos são capazes de sofrer mutações, simuldando os processos naturais e dariam conta com mais facilidade da dinâmica da estrutura web. </li></ul>Alessandra Galdo
    12. 12. Spiders web inteligentes <ul><li>http://www.seobench.com/search-engine-crawler-simulator/ </li></ul><ul><li>URL : </li></ul><ul><li>http://www.ufsc.br </li></ul><ul><li>Title : </li></ul><ul><li>U F S C - Universidade Federal de Santa Catarina - Brasil </li></ul><ul><li>Description : </li></ul><ul><li>Keywords : </li></ul><ul><li>ufsc,universidade,federal,santa,catarina,agecom,reitoria,pro-reitoria,gabinete,pesquisa,ensino,extensao,npd,prce,proaf,prpg,preg,prpe,prdhs,sepex,tecnologia,saude,trabalho,meio-ambiente,cultura,direitos,humanos,educacao,comunicacao </li></ul><ul><li>Size: </li></ul><ul><li>1468 </li></ul><ul><li>Text : </li></ul><ul><li>U F S C Universidade Federal de Santa Catarina Brasil </li></ul><ul><li>Links : </li></ul><ul><li>No Data </li></ul>Alessandra Galdo
    13. 13. Spiders web inteligentes <ul><li>http://webinsider.uol.com.br/index.php/2008/03/30/os-diferentes-robos-do-google/ </li></ul>Alessandra Galdo
    14. 14. Referências <ul><li>YANG, Kiduk. Information Retrieval on the Web. In: CRONIN, Blaise (ed.). Annual Review of Information Science and Technology . Medford: Information Today, Inc., 2005, v.39, p. 33-80. </li></ul><ul><li>  </li></ul><ul><li>CHEN, Hsinchun; CHAU, Michael. Web Mining: machine learning for Web applications. In: CRONIN, Blaise(ed.). Annual Review of Information Science and Technology . Medford: Information Today, Inc., 2004, v.38, p. 289-329. </li></ul><ul><li>  </li></ul><ul><li>MANNING, C.D.; RAGHAVAN, P.; SCHUTZE, H.I. Chapter 19. Web search basics. In: An introduction to information retrieval. Cambridge: Cambridge University Press, 2007, p. 321- 339. </li></ul>Alessandra Galdo

    ×