Análise de Links

397 visualizações

Publicada em

Publicada em: Educação
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
397
No SlideShare
0
A partir de incorporações
0
Número de incorporações
2
Ações
Compartilhamentos
0
Downloads
33
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Análise de Links

  1. 1. Ordenação e Recuperação de Dados Aula 14: Análise de Links Alexandre Duarte alexandre@di.ufpb.br 1 1
  2. 2. Aula de hoje – hipertexto e links Veremos além do conteúdo dos documentos  Começaremos a analisar os hiperlinks entre eles Tratar de questões como:  Os links representam indicações da relevância de algumas páginas? Está informação é útil na classificação?  Qual a probabilidade de uma página referenciada pela home page do CERN tratar de física nuclear? Grandes áreas de aplicação  A Web  Email  Redes sociais
  3. 3. Links estão em todo lugar Poderosa ferramenta para autenticidade e autoridade  Mail spam – quais contas de e-mail são de spammers?  Qualidade de servidores – quais servidores são ruins  Log de chamadas telefônicas O Bom, O Ruim e O Desconhecido ? Good ? ? Bad ?
  4. 4. Lógica iterativa simples O Bom, O Ruim e O Desconhecido  Bons nós não apontam para nós ruin  Todas as outras combinações são plausíveis ? Bom ? ? Ruim ? 4
  5. 5. Lógica iterativa simples Bons nós não apontam para nós ruins  Se você aponta para um nós ruim, você é ruim  Se um nó bom aponta para você, você é bom ? Bom ? ? Ruim ? 5
  6. 6. Lógica iterativa simples Bons nós não apontam para nós ruins  Se você aponta para um nós ruim, você é ruim  Se um nó bom aponta para você, você é bom Bom Ruim 6
  7. 7. Muitos outros exemplos de análise delinks Redes sociais são uma rica fonte para análise de comportamento em grupo Ex., Afinidade de compradores – Goel+Goldstein 2010  Consumidores cujos amigos gastam muito, tendem a gastar muito também http://www.cs.cornell.edu/home/kleinber/networks-book/ 7
  8. 8. Nosso principal interesse neste curso Análogo a maioria das funcionalidades de um sistema de recuperação de informação baseado puramente em texto  Scoring e classificação  Agrupamento baseado em links  Links como critério de classificação – documentos que apontam para outros documentos tendem a tratar do mesmo assunto Crawling  Baseado nos links já visitados, para onde ir em seguida? 8
  9. 9. Sec. 21.1A Web como um Grafo Dirigido hyperlink Página A Âncora Página B Suposição 1: Um hyperlink entre duas páginas indica uma atribuição de competência (sinal de qualidade) Suposição 2: O texto âncora de um hyperlink descreve a página alvo (conteúdo textual)
  10. 10. Suposição 1: reputação de sites 10
  11. 11. Suposição 2: anotação do alvo 11
  12. 12. Sec. 21.1.1 Texto âncora  Para ibm como distinguir entre :  A página da IBM (predominantemente gráfica)  Página de copyright da IBM (alta frequência do termo “ibm”)  Página spam de um rival (frequencia arbirtráriamente alta de algum termo) “ibm.com” “IBM home page” “ibm”Um milhão de textosâncora com a palavra“ibm” são um forte www.ibm.comsinal
  13. 13. Sec. 21.1.1Indexando texto âncora Ao indexar um documento D, incluir (com algum peso) os textos âncora dos documentos com links apontando para D. Armonk, NY-based computer giant IBM announced today www.ibm.comJoe’s computer hardware Big Blue today announcedlinks record profits for the quarterSunHPIBM
  14. 14. Sec. 21.1.1Indexando texto âncora Algumas vezes pode ter efeitos não esperados: exército do mal. É possível atribuir um score ao texto âncora dependente da relevância/competência da página onde o link se encontra  Ex., se assumirmos que o conteúdo das páginas de ccn.com e yahoo.com têm relevância devemos confiar nos textos âncora que apresentam
  15. 15. Sec. 21.1.1Texto âncora Outras aplicações  Ponderação/filtragem de links em um grafo  Geração de descrições de páginas a partir de textos âncora
  16. 16. A web não cita por mérito Milhões de participantes, com interesses individuais Spamming é encontrado em todo lugar Quando ferramentas de busca começaram a utilizar links para classificação (meados de 1998), o spam de links aumentou  Você pode ingressar em um grupo de websites que fazem ligações em massa entre si 16
  17. 17. Links de entrada para páginas –padrões não-usuais  17
  18. 18. Sec. 21.2Pagerank Imagine um browser fazendo uma navegação aleatória na web: 1/3  Inicia em uma página qualquer 1/3 1/3  A cada passo, sai da página atual por um de seus links, de forma equiprovável Cada página terá, a longo prazo, uma taxa de visitação – usar isso como o score da página.
  19. 19. Sec. 21.2Isso não é suficiente A web está cheia de becos sem saída.  Caminhamentos aleatórios podem levar a um beco sem saída.  Fica sem sentido falar em taxa de visitação a longo prazo. ??
  20. 20. Sec. 21.2Teletransporte Em um beco sem saída, pular para uma página aleatória. Em qualquer página que não seja um beco sem saída, manter uma chance de 10% de saltar para uma página aleatória.  Com a probabilidade restante (90%), sair por um dos links de forma aleatória.  10% - é um parâmetro.
  21. 21. Sec. 21.2Resultados do teletransporte Nunca ficar preso em um beco sem saída Há uma taxa de visitação a longo prazo para cada página visitada
  22. 22. A realidade Pagerank é utilizado pelo Google e por outros motores de busca, mas isso dificilmente conta toda a história  São utilizadas muitas outras heurísticas sofisticadas  Algumas tratam de classes específicas de consultas  Aprendizagem de máquina é utilizado amplamente
  23. 23. Sec. 21.3Hyperlink-Induced Topic Search (HITS) Em resposta a uma consulta, ao invés de uma lista ordenada de páginas, encontrar dois conjuntos de páginas inter-relacionadas:  Páginas hub são boas coleções de links sobre um determinado assunto.  Páginas competentes ocorrem recorrentemente em páginas hub sobre o assunto. Mais indicado para consultas mais amplas sobre um assunto do que para encontrar páginas específicas.
  24. 24. Sec. 21.3Hubs e Competências Uma boa página hub sobre um determinado tópico aponta para várias páginas competentes sobre este tópico Uma boa página sobre um determinado tópico é referenciada por muitas boas páginas hub sobre esse tópico Definição circular – podemos computar de forma iterativa.
  25. 25. Sec. 21.3 A esperança Claro José CompetênciasHubs TIM Maria Oi Companhias de telefonia móvel
  26. 26. Sec. 21.3Esquema em alto nível Extrair da web um conjunto base de páginas que podem ser bons hubs ou boas páginas sobre determinados tópicos. Deste conjunto, identificar um pequeno conjunto com as melhores páginas hub e páginas mais competentes de forma iterativa
  27. 27. Sec. 21.3Conjunto base Dada uma consulta textual (ex. browser), usar um índice texto para recuperar todas as páginas contendo browser.  Chamar o resultado de conjunto de páginas raiz Adicionar qualquer página ao conjunto que  Aponta para uma página no conjunto raiz ou  É referenciada por qualquer página no conjunto raiz. Chamar o resultado do conjunto base
  28. 28. Sec. 21.3Visualização Conjunto raíz Conjunto base
  29. 29. Sec. 21.3Destilando hubs e páginas competentes Computar, para cada página x no conjunto base, um score do hub h(x) e um score de competência a(x). Inicialização: for all x, h(x)←1; a(x) ←1; Atualizar iterativamente h(x), a(x); Depois das iterações  Classificar as páginas com os h() mais altos como os top hubs  Maior score a() é a página mais competente.
  30. 30. Sec. 21.3Atualização iterativa Repetir as seguintes atualizações, para todo x h( x ) ← ∑ a( y ) x y x a( x) ← ∑ h( y ) y x x
  31. 31. Sec. 21.3Escala Para evitar que os valores de h() e a() se tornem muito grandes, pode-se ajustar sua escala, reduzido para baixo a cada iteração. O fator de escala realmente não interessa:  Nos preocupamos apenas com os valores relativos dos scores.
  32. 32. Sec. 21.3Quantas iterações? Os valores relativos dos scores vão convergir depois de algumas poucas iterações:  de fato, escaladas apropriadamente, os scores h() e a() entram em um estado de estabilização! Na prática, aproxima-se da estabilização após cerca de 5 iterações.
  33. 33. Sec. 21.3Escolas Elementares do Japão Hubs Competências  schools  The American School in Japan  LINK Page-13  The Link Page  “ú–{‚ÌŠwZ  ‰ªès—§ˆä“c¬ŠwZƒz[ƒƒy[ƒW  a‰„¬ŠwZƒz[ƒƒy[ƒW  Kids Space  100 Schools Home Pages (English)  ˆÀés—§ˆÀé¼•”¬ŠwZ  K-12 from Japan 10/...rnet and Education )  ‹{é‹³ˆç‘åŠw•‘®¬ŠwZ  http://www...iglobe.ne.jp/~IKESAN  KEIMEI GAKUEN Home Page ( Japanese )  ‚l‚f‚j¬ŠwZ‚U”N‚P‘g•¨Œê  Shiranuma Home Page  ÒŠ—’¬—§ÒŠ—“Œ¬ŠwZ  fuzoku-es.fukui-u.ac.jp  Koulutus ja oppilaitokset  welcome to Miasa E&J school  TOYODA HOMEPAGE  _“ލ쌧E‰¡•ls—§’†ì¼¬ŠwZ‚̃y  Education  http://www...p/~m_maru/index.html  Cays Homepage(Japanese)  fukui haruyama-es HomePage  –y“썬ŠwZ‚̃z[ƒƒy[ƒW  Torisu primary school  UNIVERSITY  goo  ‰J—³¬ŠwZ DRAGON97-TOP  Yakumo Elementary,Hokkaido,Japan  Â‰ª¬ŠwZ‚T”N‚P‘gƒz[ƒƒy[ƒW  FUZOKU Home Page  ¶µ°é¼ÂÁ© ¥á¥Ë¥å¡¼ ¥á¥Ë¥å¡¼  Kamishibun Elementary School...
  34. 34. Sec. 21.3Fatos interessantes Agrupa páginas relevantes independentemente de linguagem ou conteúdo. Usar análise de links apenas depois que o conjunto base estiver montado  classificação iterativa é independente da consulta. Computação iterativa depois de recuperação textual – overhead significativo.
  35. 35. Sec. 21.3Questões Desvio de Tópico  Páginas fora do tópico podem fazer com que outras páginas fora fora do tópico sejam consideradas competentes Reforço mútuo por filiação  Páginas ou sites afiliados podem aumentar seus scores trocando links  Esse tipo de link não dá informação útil para a busca

×