SlideShare uma empresa Scribd logo
1 de 35
Ordenação e Recuperação de Dados

               Aula 14:
            Análise de Links
           Alexandre Duarte
         alexandre@di.ufpb.br


                                1   1
Aula de hoje – hipertexto e links
 Veremos além do conteúdo dos documentos
   Começaremos a analisar os hiperlinks entre eles
 Tratar de questões como:
   Os links representam indicações da relevância de algumas
    páginas? Está informação é útil na classificação?
   Qual a probabilidade de uma página referenciada pela
    home page do CERN tratar de física nuclear?
 Grandes áreas de aplicação
   A Web
   Email
   Redes sociais
Links estão em todo lugar
 Poderosa ferramenta para autenticidade e
  autoridade
   Mail spam – quais contas de e-mail são de spammers?
   Qualidade de servidores – quais servidores são ruins
   Log de chamadas telefônicas
 O Bom, O Ruim e O Desconhecido
                                 ?

     Good                ?           ?
                                              Bad

                             ?
Lógica iterativa simples
 O Bom, O Ruim e O Desconhecido
   Bons nós não apontam para nós ruin
   Todas as outras combinações são plausíveis



                                 ?

     Bom                 ?           ?           Ruim


                             ?
                                                        4
Lógica iterativa simples
 Bons nós não apontam para nós ruins
   Se você aponta para um nós ruim, você é ruim
   Se um nó bom aponta para você, você é bom



                                 ?

     Bom                 ?           ?        Ruim


                             ?
                                                     5
Lógica iterativa simples
 Bons nós não apontam para nós ruins
   Se você aponta para um nós ruim, você é ruim
   Se um nó bom aponta para você, você é bom




     Bom                                      Ruim



                                                     6
Muitos outros exemplos de análise de
links
 Redes sociais são uma rica fonte para análise de
  comportamento em grupo
 Ex., Afinidade de compradores – Goel+Goldstein
  2010
    Consumidores cujos amigos gastam muito, tendem a
     gastar muito também
 http://www.cs.cornell.edu/home/kleinber/networks-book/




                                                           7
Nosso principal interesse neste curso
 Análogo a maioria das funcionalidades de um
  sistema de recuperação de informação baseado
  puramente em texto
   Scoring e classificação
   Agrupamento baseado em links
   Links como critério de classificação – documentos que
    apontam para outros documentos tendem a tratar do
    mesmo assunto
 Crawling
   Baseado nos links já visitados, para onde ir em seguida?

                                                               8
Sec. 21.1




A Web como um Grafo Dirigido

                        hyperlink
      Página A Âncora                  Página B




  Suposição 1: Um hyperlink entre duas páginas indica uma
  atribuição de competência (sinal de qualidade)

  Suposição 2: O texto âncora de um hyperlink descreve a
  página alvo (conteúdo textual)
Suposição 1: reputação de sites




                                  10
Suposição 2: anotação do alvo




                                11
Sec. 21.1.1




 Texto âncora
   Para ibm como distinguir entre :
      A página da IBM (predominantemente gráfica)
      Página de copyright da IBM (alta frequência do termo
       “ibm”)
      Página spam de um rival (frequencia arbirtráriamente alta
       de algum termo)
                          “ibm.com”           “IBM home page”
          “ibm”
Um milhão de textos
âncora com a palavra
“ibm” são um forte        www.ibm.com
sinal
Sec. 21.1.1




Indexando texto âncora
 Ao indexar um documento D, incluir (com algum
  peso) os textos âncora dos documentos com links
  apontando para D.
      Armonk, NY-based computer
       giant IBM announced today

                                   www.ibm.com


Joe’s computer hardware         Big Blue today announced
links                          record profits for the quarter
Sun
HP
IBM
Sec. 21.1.1




Indexando texto âncora
 Algumas vezes pode ter efeitos não esperados:
  exército do mal.
 É possível atribuir um score ao texto âncora
  dependente da relevância/competência da página
  onde o link se encontra
   Ex., se assumirmos que o conteúdo das páginas de
    ccn.com e yahoo.com têm relevância devemos confiar nos
    textos âncora que apresentam
Sec. 21.1.1




Texto âncora
 Outras aplicações
   Ponderação/filtragem de links em um grafo
   Geração de descrições de páginas a partir
    de textos âncora
A web não cita por mérito
 Milhões de participantes, com interesses individuais
 Spamming é encontrado em todo lugar
 Quando ferramentas de busca começaram a utilizar
  links para classificação (meados de 1998), o spam de
  links aumentou
    Você pode ingressar em um grupo de websites que fazem
     ligações em massa entre si




                                                             16
Links de entrada para páginas –
padrões não-usuais 




                                  17
Sec. 21.2




Pagerank
 Imagine um browser fazendo uma navegação
  aleatória na web:                  1/3
    Inicia em uma página qualquer              1/3
                                                1/3
    A cada passo, sai da página atual por um de seus links, de
     forma equiprovável
 Cada página terá, a longo prazo, uma taxa de
  visitação – usar isso como o score da página.
Sec. 21.2




Isso não é suficiente
 A web está cheia de becos sem saída.
    Caminhamentos aleatórios podem levar a um beco sem
     saída.
    Fica sem sentido falar em taxa de visitação a longo prazo.




                                      ??
Sec. 21.2




Teletransporte
 Em um beco sem saída, pular para uma
  página aleatória.
 Em qualquer página que não seja um beco
  sem saída, manter uma chance de 10% de
  saltar para uma página aleatória.
   Com a probabilidade restante (90%), sair
    por um dos links de forma aleatória.
   10% - é um parâmetro.
Sec. 21.2




Resultados do teletransporte
 Nunca ficar preso em um beco sem
  saída
 Há uma taxa de visitação a longo prazo
  para cada página visitada
A realidade
 Pagerank é utilizado pelo Google e por outros
  motores de busca, mas isso dificilmente conta toda a
  história
    São utilizadas muitas outras heurísticas sofisticadas
    Algumas tratam de classes específicas de consultas
    Aprendizagem de máquina é utilizado amplamente
Sec. 21.3




Hyperlink-Induced Topic Search (HITS)
 Em resposta a uma consulta, ao invés de uma lista
  ordenada de páginas, encontrar dois conjuntos de
  páginas inter-relacionadas:
    Páginas hub são boas coleções de links sobre um
     determinado assunto.
    Páginas competentes ocorrem recorrentemente em
     páginas hub sobre o assunto.
 Mais indicado para consultas mais amplas sobre um
  assunto do que para encontrar páginas específicas.
Sec. 21.3




Hubs e Competências
 Uma boa página hub sobre um
  determinado tópico aponta para várias
  páginas competentes sobre este tópico
 Uma boa página sobre um determinado
  tópico é referenciada por muitas boas
  páginas hub sobre esse tópico
 Definição circular – podemos computar de
  forma iterativa.
Sec. 21.3




 A esperança
                                  Claro
       José
                                       Competências
Hubs

                                 TIM
       Maria
                                 Oi
       Companhias de telefonia móvel
Sec. 21.3




Esquema em alto nível
 Extrair da web um conjunto base de
  páginas que podem ser bons hubs ou
  boas páginas sobre determinados
  tópicos.
 Deste conjunto, identificar um
  pequeno conjunto com as melhores
  páginas hub e páginas mais
  competentes de forma iterativa
Sec. 21.3




Conjunto base
 Dada uma consulta textual (ex. browser), usar
  um índice texto para recuperar todas as
  páginas contendo browser.
   Chamar o resultado de conjunto de páginas raiz
 Adicionar qualquer página ao conjunto que
   Aponta para uma página no conjunto raiz ou
   É referenciada por qualquer página no conjunto
    raiz.
 Chamar o resultado do conjunto base
Sec. 21.3




Visualização



                 Conjunto
                  raíz


               Conjunto base
Sec. 21.3




Destilando hubs e páginas competentes
 Computar, para cada página x no conjunto base,
  um score do hub h(x) e um score de
  competência a(x).
 Inicialização: for all x, h(x)←1; a(x) ←1;
 Atualizar iterativamente h(x), a(x);
 Depois das iterações
   Classificar as páginas com os h() mais altos como
    os top hubs
   Maior score a() é a página mais competente.
Sec. 21.3




Atualização iterativa
 Repetir as seguintes atualizações, para todo x



         h( x ) ←   ∑ a( y )
                    x y
                                       x




         a( x) ←    ∑ h( y )
                    y x
                                              x
Sec. 21.3




Escala
 Para evitar que os valores de h() e a() se
  tornem muito grandes, pode-se ajustar sua
  escala, reduzido para baixo a cada iteração.
 O fator de escala realmente não interessa:
   Nos preocupamos apenas com os valores
    relativos dos scores.
Sec. 21.3




Quantas iterações?
 Os valores relativos dos scores vão convergir
  depois de algumas poucas iterações:
   de fato, escaladas apropriadamente, os scores h()
    e a() entram em um estado de estabilização!
 Na prática, aproxima-se da estabilização após
  cerca de 5 iterações.
Sec. 21.3




Escolas Elementares do Japão
                   Hubs                                    Competências
    schools                                         The American School in Japan
    LINK Page-13                                    The Link Page
    “ú–{‚ÌŠwZ                                      ‰ªès—§ˆä“c¬ŠwZƒz[ƒƒy[ƒW
    a‰„¬ŠwZƒz[ƒƒy[ƒW                          Kids' Space
    100 Schools Home Pages (English)                ˆÀés—§ˆÀé¼•”¬ŠwZ
    K-12 from Japan 10/...rnet and Education )      ‹{é‹³ˆç‘åŠw•‘®¬ŠwZ
    http://www...iglobe.ne.jp/~IKESAN               KEIMEI GAKUEN Home Page ( Japanese )
    ‚l‚f‚j¬ŠwZ‚U”N‚P‘g•¨Œê                        Shiranuma Home Page
    ÒŠ—’¬—§ÒŠ—“Œ¬ŠwZ                            fuzoku-es.fukui-u.ac.jp
    Koulutus ja oppilaitokset                       welcome to Miasa E&J school
    TOYODA HOMEPAGE                                 _“ލ쌧E‰¡•ls—§’†ì¼¬ŠwZ‚̃y
    Education                                       http://www...p/~m_maru/index.html
    Cay's Homepage(Japanese)                        fukui haruyama-es HomePage
    –y“썬ŠwZ‚̃z[ƒƒy[ƒW                        Torisu primary school
    UNIVERSITY                                      goo
    ‰J—³¬ŠwZ DRAGON97-TOP                         Yakumo Elementary,Hokkaido,Japan
    Â‰ª¬ŠwZ‚T”N‚P‘gƒz[ƒƒy[ƒW                  FUZOKU Home Page
    ¶µ°é¼ÂÁ© ¥á¥Ë¥å¡¼ ¥á¥Ë¥å¡¼                      Kamishibun Elementary School...
Sec. 21.3




Fatos interessantes
 Agrupa páginas relevantes independentemente
  de linguagem ou conteúdo.
 Usar análise de links apenas depois que o
  conjunto base estiver montado
   classificação iterativa é independente da consulta.
 Computação iterativa depois de recuperação
  textual – overhead significativo.
Sec. 21.3




Questões
 Desvio de Tópico
   Páginas fora do tópico podem fazer com que
    outras páginas fora fora do tópico sejam
    consideradas competentes
 Reforço mútuo por filiação
   Páginas ou sites afiliados podem aumentar seus
    scores trocando links
      Esse tipo de link não dá informação útil para a busca

Mais conteúdo relacionado

Mais de Alexandre Duarte

Táticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosTáticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosAlexandre Duarte
 
Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Alexandre Duarte
 
Escolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaEscolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaAlexandre Duarte
 
Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como CiênciaAlexandre Duarte
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: IntroduçãoAlexandre Duarte
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerAlexandre Duarte
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBAlexandre Duarte
 
Sumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisSumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisAlexandre Duarte
 
Correlação e Classificação
Correlação e ClassificaçãoCorrelação e Classificação
Correlação e ClassificaçãoAlexandre Duarte
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2DAlexandre Duarte
 
Sumarização Estatística 1D
Sumarização Estatística 1DSumarização Estatística 1D
Sumarização Estatística 1DAlexandre Duarte
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de DadosAlexandre Duarte
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosAlexandre Duarte
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de SurveysAlexandre Duarte
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Alexandre Duarte
 

Mais de Alexandre Duarte (20)

Projeto de Experimentos
Projeto de ExperimentosProjeto de Experimentos
Projeto de Experimentos
 
Táticas para Projeto de Experimentos
Táticas para Projeto de ExperimentosTáticas para Projeto de Experimentos
Táticas para Projeto de Experimentos
 
Causalidade e Abdução
Causalidade e AbduçãoCausalidade e Abdução
Causalidade e Abdução
 
Fazer Ciência é Difícil!
Fazer Ciência é Difícil!Fazer Ciência é Difícil!
Fazer Ciência é Difícil!
 
Atividades Científica
Atividades CientíficaAtividades Científica
Atividades Científica
 
Escolhendo um Projeto de Pesquisa
Escolhendo um Projeto de PesquisaEscolhendo um Projeto de Pesquisa
Escolhendo um Projeto de Pesquisa
 
Ciência da Computação como Ciência
Ciência da Computação como CiênciaCiência da Computação como Ciência
Ciência da Computação como Ciência
 
Metodologia da Pesquisa Científica: Introdução
Metodologia da Pesquisa Científica:  IntroduçãoMetodologia da Pesquisa Científica:  Introdução
Metodologia da Pesquisa Científica: Introdução
 
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazerGráficos: 10 dicas sobre o que fazer e sobre o que não fazer
Gráficos: 10 dicas sobre o que fazer e sobre o que não fazer
 
Panorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPBPanorama de Pesquisas em Análise de Dados na UFPB
Panorama de Pesquisas em Análise de Dados na UFPB
 
Agrupamento com K-Means
Agrupamento com K-MeansAgrupamento com K-Means
Agrupamento com K-Means
 
Sumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis NominaisSumarização Estatística 2D: Variáveis Nominais
Sumarização Estatística 2D: Variáveis Nominais
 
Correlação e Classificação
Correlação e ClassificaçãoCorrelação e Classificação
Correlação e Classificação
 
Sumarização Estatística 2D
Sumarização Estatística 2DSumarização Estatística 2D
Sumarização Estatística 2D
 
Sumarização Estatística 1D
Sumarização Estatística 1DSumarização Estatística 1D
Sumarização Estatística 1D
 
Transformação de Dados
Transformação de DadosTransformação de Dados
Transformação de Dados
 
Preparação e Limpeza de Dados
Preparação e Limpeza de DadosPreparação e Limpeza de Dados
Preparação e Limpeza de Dados
 
Introdução ao Projeto de Experimentos
Introdução ao Projeto de ExperimentosIntrodução ao Projeto de Experimentos
Introdução ao Projeto de Experimentos
 
Introdução ao Projeto de Surveys
Introdução ao Projeto de SurveysIntrodução ao Projeto de Surveys
Introdução ao Projeto de Surveys
 
Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01Introdução à Análise de Dados - Aula 01
Introdução à Análise de Dados - Aula 01
 

Último

HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024Sandra Pratas
 
Aula - 2º Ano - Cultura e Sociedade - Conceitos-chave
Aula - 2º Ano - Cultura e Sociedade - Conceitos-chaveAula - 2º Ano - Cultura e Sociedade - Conceitos-chave
Aula - 2º Ano - Cultura e Sociedade - Conceitos-chaveaulasgege
 
Época Realista y la obra de Madame Bovary.
Época Realista y la obra de Madame Bovary.Época Realista y la obra de Madame Bovary.
Época Realista y la obra de Madame Bovary.keislayyovera123
 
ABRIL VERDE.pptx Slide sobre abril ver 2024
ABRIL VERDE.pptx Slide sobre abril ver 2024ABRIL VERDE.pptx Slide sobre abril ver 2024
ABRIL VERDE.pptx Slide sobre abril ver 2024Jeanoliveira597523
 
Aula 13 8º Ano Cap.04 Revolução Francesa.pptx
Aula 13 8º Ano Cap.04 Revolução Francesa.pptxAula 13 8º Ano Cap.04 Revolução Francesa.pptx
Aula 13 8º Ano Cap.04 Revolução Francesa.pptxBiancaNogueira42
 
Aula - 1º Ano - Émile Durkheim - Um dos clássicos da sociologia
Aula - 1º Ano - Émile Durkheim - Um dos clássicos da sociologiaAula - 1º Ano - Émile Durkheim - Um dos clássicos da sociologia
Aula - 1º Ano - Émile Durkheim - Um dos clássicos da sociologiaaulasgege
 
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptx
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptxQUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptx
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptxIsabellaGomes58
 
Gerenciando a Aprendizagem Organizacional
Gerenciando a Aprendizagem OrganizacionalGerenciando a Aprendizagem Organizacional
Gerenciando a Aprendizagem OrganizacionalJacqueline Cerqueira
 
trabalho wanda rocha ditadura
trabalho wanda rocha ditaduratrabalho wanda rocha ditadura
trabalho wanda rocha ditaduraAdryan Luiz
 
Simulado 1 Etapa - 2024 Proximo Passo.pdf
Simulado 1 Etapa - 2024 Proximo Passo.pdfSimulado 1 Etapa - 2024 Proximo Passo.pdf
Simulado 1 Etapa - 2024 Proximo Passo.pdfEditoraEnovus
 
Sociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autoresSociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autoresaulasgege
 
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASBCRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASBAline Santana
 
02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdf02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdfJorge Andrade
 
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)Mary Alvarenga
 
Programa de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades MotorasPrograma de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades MotorasCassio Meira Jr.
 
A Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das MãesA Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das MãesMary Alvarenga
 
Habilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasHabilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasCassio Meira Jr.
 
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃOLEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃOColégio Santa Teresinha
 

Último (20)

HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
 
Aula - 2º Ano - Cultura e Sociedade - Conceitos-chave
Aula - 2º Ano - Cultura e Sociedade - Conceitos-chaveAula - 2º Ano - Cultura e Sociedade - Conceitos-chave
Aula - 2º Ano - Cultura e Sociedade - Conceitos-chave
 
Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
Orientação Técnico-Pedagógica EMBcae Nº 001, de 16 de abril de 2024
 
Época Realista y la obra de Madame Bovary.
Época Realista y la obra de Madame Bovary.Época Realista y la obra de Madame Bovary.
Época Realista y la obra de Madame Bovary.
 
ABRIL VERDE.pptx Slide sobre abril ver 2024
ABRIL VERDE.pptx Slide sobre abril ver 2024ABRIL VERDE.pptx Slide sobre abril ver 2024
ABRIL VERDE.pptx Slide sobre abril ver 2024
 
Aula 13 8º Ano Cap.04 Revolução Francesa.pptx
Aula 13 8º Ano Cap.04 Revolução Francesa.pptxAula 13 8º Ano Cap.04 Revolução Francesa.pptx
Aula 13 8º Ano Cap.04 Revolução Francesa.pptx
 
Aula - 1º Ano - Émile Durkheim - Um dos clássicos da sociologia
Aula - 1º Ano - Émile Durkheim - Um dos clássicos da sociologiaAula - 1º Ano - Émile Durkheim - Um dos clássicos da sociologia
Aula - 1º Ano - Émile Durkheim - Um dos clássicos da sociologia
 
Em tempo de Quaresma .
Em tempo de Quaresma                            .Em tempo de Quaresma                            .
Em tempo de Quaresma .
 
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptx
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptxQUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptx
QUARTA - 1EM SOCIOLOGIA - Aprender a pesquisar.pptx
 
Gerenciando a Aprendizagem Organizacional
Gerenciando a Aprendizagem OrganizacionalGerenciando a Aprendizagem Organizacional
Gerenciando a Aprendizagem Organizacional
 
trabalho wanda rocha ditadura
trabalho wanda rocha ditaduratrabalho wanda rocha ditadura
trabalho wanda rocha ditadura
 
Simulado 1 Etapa - 2024 Proximo Passo.pdf
Simulado 1 Etapa - 2024 Proximo Passo.pdfSimulado 1 Etapa - 2024 Proximo Passo.pdf
Simulado 1 Etapa - 2024 Proximo Passo.pdf
 
Sociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autoresSociologia Contemporânea - Uma Abordagem dos principais autores
Sociologia Contemporânea - Uma Abordagem dos principais autores
 
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASBCRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
 
02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdf02. Informática - Windows 10 apostila completa.pdf
02. Informática - Windows 10 apostila completa.pdf
 
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
 
Programa de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades MotorasPrograma de Intervenção com Habilidades Motoras
Programa de Intervenção com Habilidades Motoras
 
A Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das MãesA Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das Mães
 
Habilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasHabilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e Específicas
 
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃOLEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
 

Análise de Links

  • 1. Ordenação e Recuperação de Dados Aula 14: Análise de Links Alexandre Duarte alexandre@di.ufpb.br 1 1
  • 2. Aula de hoje – hipertexto e links  Veremos além do conteúdo dos documentos  Começaremos a analisar os hiperlinks entre eles  Tratar de questões como:  Os links representam indicações da relevância de algumas páginas? Está informação é útil na classificação?  Qual a probabilidade de uma página referenciada pela home page do CERN tratar de física nuclear?  Grandes áreas de aplicação  A Web  Email  Redes sociais
  • 3. Links estão em todo lugar  Poderosa ferramenta para autenticidade e autoridade  Mail spam – quais contas de e-mail são de spammers?  Qualidade de servidores – quais servidores são ruins  Log de chamadas telefônicas  O Bom, O Ruim e O Desconhecido ? Good ? ? Bad ?
  • 4. Lógica iterativa simples  O Bom, O Ruim e O Desconhecido  Bons nós não apontam para nós ruin  Todas as outras combinações são plausíveis ? Bom ? ? Ruim ? 4
  • 5. Lógica iterativa simples  Bons nós não apontam para nós ruins  Se você aponta para um nós ruim, você é ruim  Se um nó bom aponta para você, você é bom ? Bom ? ? Ruim ? 5
  • 6. Lógica iterativa simples  Bons nós não apontam para nós ruins  Se você aponta para um nós ruim, você é ruim  Se um nó bom aponta para você, você é bom Bom Ruim 6
  • 7. Muitos outros exemplos de análise de links  Redes sociais são uma rica fonte para análise de comportamento em grupo  Ex., Afinidade de compradores – Goel+Goldstein 2010  Consumidores cujos amigos gastam muito, tendem a gastar muito também  http://www.cs.cornell.edu/home/kleinber/networks-book/ 7
  • 8. Nosso principal interesse neste curso  Análogo a maioria das funcionalidades de um sistema de recuperação de informação baseado puramente em texto  Scoring e classificação  Agrupamento baseado em links  Links como critério de classificação – documentos que apontam para outros documentos tendem a tratar do mesmo assunto  Crawling  Baseado nos links já visitados, para onde ir em seguida? 8
  • 9. Sec. 21.1 A Web como um Grafo Dirigido hyperlink Página A Âncora Página B Suposição 1: Um hyperlink entre duas páginas indica uma atribuição de competência (sinal de qualidade) Suposição 2: O texto âncora de um hyperlink descreve a página alvo (conteúdo textual)
  • 12. Sec. 21.1.1 Texto âncora  Para ibm como distinguir entre :  A página da IBM (predominantemente gráfica)  Página de copyright da IBM (alta frequência do termo “ibm”)  Página spam de um rival (frequencia arbirtráriamente alta de algum termo) “ibm.com” “IBM home page” “ibm” Um milhão de textos âncora com a palavra “ibm” são um forte www.ibm.com sinal
  • 13. Sec. 21.1.1 Indexando texto âncora  Ao indexar um documento D, incluir (com algum peso) os textos âncora dos documentos com links apontando para D. Armonk, NY-based computer giant IBM announced today www.ibm.com Joe’s computer hardware Big Blue today announced links record profits for the quarter Sun HP IBM
  • 14. Sec. 21.1.1 Indexando texto âncora  Algumas vezes pode ter efeitos não esperados: exército do mal.  É possível atribuir um score ao texto âncora dependente da relevância/competência da página onde o link se encontra  Ex., se assumirmos que o conteúdo das páginas de ccn.com e yahoo.com têm relevância devemos confiar nos textos âncora que apresentam
  • 15. Sec. 21.1.1 Texto âncora  Outras aplicações  Ponderação/filtragem de links em um grafo  Geração de descrições de páginas a partir de textos âncora
  • 16. A web não cita por mérito  Milhões de participantes, com interesses individuais  Spamming é encontrado em todo lugar  Quando ferramentas de busca começaram a utilizar links para classificação (meados de 1998), o spam de links aumentou  Você pode ingressar em um grupo de websites que fazem ligações em massa entre si 16
  • 17. Links de entrada para páginas – padrões não-usuais  17
  • 18. Sec. 21.2 Pagerank  Imagine um browser fazendo uma navegação aleatória na web: 1/3  Inicia em uma página qualquer 1/3 1/3  A cada passo, sai da página atual por um de seus links, de forma equiprovável  Cada página terá, a longo prazo, uma taxa de visitação – usar isso como o score da página.
  • 19. Sec. 21.2 Isso não é suficiente  A web está cheia de becos sem saída.  Caminhamentos aleatórios podem levar a um beco sem saída.  Fica sem sentido falar em taxa de visitação a longo prazo. ??
  • 20. Sec. 21.2 Teletransporte  Em um beco sem saída, pular para uma página aleatória.  Em qualquer página que não seja um beco sem saída, manter uma chance de 10% de saltar para uma página aleatória.  Com a probabilidade restante (90%), sair por um dos links de forma aleatória.  10% - é um parâmetro.
  • 21. Sec. 21.2 Resultados do teletransporte  Nunca ficar preso em um beco sem saída  Há uma taxa de visitação a longo prazo para cada página visitada
  • 22. A realidade  Pagerank é utilizado pelo Google e por outros motores de busca, mas isso dificilmente conta toda a história  São utilizadas muitas outras heurísticas sofisticadas  Algumas tratam de classes específicas de consultas  Aprendizagem de máquina é utilizado amplamente
  • 23. Sec. 21.3 Hyperlink-Induced Topic Search (HITS)  Em resposta a uma consulta, ao invés de uma lista ordenada de páginas, encontrar dois conjuntos de páginas inter-relacionadas:  Páginas hub são boas coleções de links sobre um determinado assunto.  Páginas competentes ocorrem recorrentemente em páginas hub sobre o assunto.  Mais indicado para consultas mais amplas sobre um assunto do que para encontrar páginas específicas.
  • 24. Sec. 21.3 Hubs e Competências  Uma boa página hub sobre um determinado tópico aponta para várias páginas competentes sobre este tópico  Uma boa página sobre um determinado tópico é referenciada por muitas boas páginas hub sobre esse tópico  Definição circular – podemos computar de forma iterativa.
  • 25. Sec. 21.3 A esperança Claro José Competências Hubs TIM Maria Oi Companhias de telefonia móvel
  • 26. Sec. 21.3 Esquema em alto nível  Extrair da web um conjunto base de páginas que podem ser bons hubs ou boas páginas sobre determinados tópicos.  Deste conjunto, identificar um pequeno conjunto com as melhores páginas hub e páginas mais competentes de forma iterativa
  • 27. Sec. 21.3 Conjunto base  Dada uma consulta textual (ex. browser), usar um índice texto para recuperar todas as páginas contendo browser.  Chamar o resultado de conjunto de páginas raiz  Adicionar qualquer página ao conjunto que  Aponta para uma página no conjunto raiz ou  É referenciada por qualquer página no conjunto raiz.  Chamar o resultado do conjunto base
  • 28. Sec. 21.3 Visualização Conjunto raíz Conjunto base
  • 29. Sec. 21.3 Destilando hubs e páginas competentes  Computar, para cada página x no conjunto base, um score do hub h(x) e um score de competência a(x).  Inicialização: for all x, h(x)←1; a(x) ←1;  Atualizar iterativamente h(x), a(x);  Depois das iterações  Classificar as páginas com os h() mais altos como os top hubs  Maior score a() é a página mais competente.
  • 30. Sec. 21.3 Atualização iterativa  Repetir as seguintes atualizações, para todo x h( x ) ← ∑ a( y ) x y x a( x) ← ∑ h( y ) y x x
  • 31. Sec. 21.3 Escala  Para evitar que os valores de h() e a() se tornem muito grandes, pode-se ajustar sua escala, reduzido para baixo a cada iteração.  O fator de escala realmente não interessa:  Nos preocupamos apenas com os valores relativos dos scores.
  • 32. Sec. 21.3 Quantas iterações?  Os valores relativos dos scores vão convergir depois de algumas poucas iterações:  de fato, escaladas apropriadamente, os scores h() e a() entram em um estado de estabilização!  Na prática, aproxima-se da estabilização após cerca de 5 iterações.
  • 33. Sec. 21.3 Escolas Elementares do Japão Hubs Competências  schools  The American School in Japan  LINK Page-13  The Link Page  “ú–{‚ÌŠwZ  ‰ªès—§ˆä“c¬ŠwZƒz[ƒƒy[ƒW  a‰„¬ŠwZƒz[ƒƒy[ƒW  Kids' Space  100 Schools Home Pages (English)  ˆÀés—§ˆÀé¼•”¬ŠwZ  K-12 from Japan 10/...rnet and Education )  ‹{é‹³ˆç‘åŠw•‘®¬ŠwZ  http://www...iglobe.ne.jp/~IKESAN  KEIMEI GAKUEN Home Page ( Japanese )  ‚l‚f‚j¬ŠwZ‚U”N‚P‘g•¨Œê  Shiranuma Home Page  ÒŠ—’¬—§ÒŠ—“Œ¬ŠwZ  fuzoku-es.fukui-u.ac.jp  Koulutus ja oppilaitokset  welcome to Miasa E&J school  TOYODA HOMEPAGE  _“ލ쌧E‰¡•ls—§’†ì¼¬ŠwZ‚̃y  Education  http://www...p/~m_maru/index.html  Cay's Homepage(Japanese)  fukui haruyama-es HomePage  –y“썬ŠwZ‚̃z[ƒƒy[ƒW  Torisu primary school  UNIVERSITY  goo  ‰J—³¬ŠwZ DRAGON97-TOP  Yakumo Elementary,Hokkaido,Japan  Â‰ª¬ŠwZ‚T”N‚P‘gƒz[ƒƒy[ƒW  FUZOKU Home Page  ¶µ°é¼ÂÁ© ¥á¥Ë¥å¡¼ ¥á¥Ë¥å¡¼  Kamishibun Elementary School...
  • 34. Sec. 21.3 Fatos interessantes  Agrupa páginas relevantes independentemente de linguagem ou conteúdo.  Usar análise de links apenas depois que o conjunto base estiver montado  classificação iterativa é independente da consulta.  Computação iterativa depois de recuperação textual – overhead significativo.
  • 35. Sec. 21.3 Questões  Desvio de Tópico  Páginas fora do tópico podem fazer com que outras páginas fora fora do tópico sejam consideradas competentes  Reforço mútuo por filiação  Páginas ou sites afiliados podem aumentar seus scores trocando links  Esse tipo de link não dá informação útil para a busca