Ordenação e Recuperação de Dados

                    Aula 13:
   Recuperação da Informação e Busca na Web
               Alexandre Duarte
             alexandre@di.ufpb.br


                                   1          1
Breve contextualização histórica
 Motores de busca baseados em palavras-
  chave 1995-1997
   Altavista, Excite, Infoseek, Inktomi, Lycos
 Classificação paga : Goto (transformou-se em
  Overture.com → Yahoo!)
   A sua classificação nos resultados de busca
    dependia de quanto você pagava
   Leilão de palavras-chave: casino era muito cara!


                                                       2
Breve contextualização histórica
 1998+: Classificação baseada em links é criada pela Google
    Destruiu todos os outros motores de busca com exceção do Inktomi
    Aumento da satisfação do usuário
    Enquanto isso, o faturamento anual da Goto/Overture está perto de
     U$1 bilhão
 Resultado : Google adiciona anúncios pagos, de forma
  independente dos resultados das buscas
    Yahoo segue, comprando a Overture (para anúncios pagos) e Inktomi
     (para busca)
 2005+: Google aumenta sua parcela no mercado de busca,
  dominando a Europa e ganhando força na América do Norte
    2009: Yahoo! e Microsoft propõem um modelo combinado de busca
     paga
                                                                         3
Anúncios




Resultados
             4
Básico de busca na web
                               Usuário
                                                                                                        Sponsored Links

                                                                                              CG Appliance Express
                                                                                              Discount Appliances (650) 756-3931
                                                                                              Same Day Certified Installation
                                                                                              www.cgappliance.com
                                                                                              San Francisco-Oakland-San Jose,
                                                                                              CA

                                                                                              Miele Vacuum Cleaners
                                                                                              Miele Vacuums- Complete Selection
                                                                                              Free Shipping!
                                                                                              www.vacuums.com

                                                                                              Miele Vacuum Cleaners
                                                                                              Miele-Free Air shipping!
                                                                                              All models. Helpful advice.
                                                                                              www.best-vacuum.com




                                   Web                                  Results 1 - 10 of about 7,310,000 for miele. (0.12 seconds)

                                   Miele, Inc -- Anything else is a compromise
                                   At the heart of your home, Appliances by Miele. ... USA. to miele.com. Residential Appliances.
                                   Vacuum Cleaners. Dishwashers. Cooking Appliances. Steam Oven. Coffee System ...
                                   www.miele.com/ - 20k - Cached - Similar pages




             Web spider            Miele
                                   Welcome to Miele, the home of the very best appliances and kitchens in the world.
                                   www.miele.co.uk/ - 3k - Cached - Similar pages

                                   Miele - Deutscher Hersteller von Einbaugeräten, Hausgeräten ... - [ Translate this
                                   page ]
                                   Das Portal zum Thema Essen & Geniessen online unter www.zu-tisch.de. Miele weltweit
                                   ...ein Leben lang. ... Wählen Sie die Miele Vertretung Ihres Landes.
                                   www.miele.de/ - 10k - Cached - Similar pages

                                   Herzlich willkommen bei Miele Österreich - [ Translate this page ]
                                   Herzlich willkommen bei Miele Österreich Wenn Sie nicht automatisch
                                   weitergeleitet werden, klicken Sie bitte hier! HAUSHALTSGERÄTE ...
                                   www.miele.at/ - 3k - Cached - Similar pages




                                                                                          Buscar

            Indexador


   Web


                    Índices   Índice de propagandas
                                               5
Necessidades do usuário
 Necessidade
    Informacional – deseja aprender algo (~40% / 65%)
                                               Baixa hemoglobina
    Navigacional – deseja ir a uma página (~25% / 15%)
                                               United Airlines
    Transacional – desejar fazer algo (através da web) (~35% / 20%)
        Acessar um serviço       Tempo na Serra Gaúcha
        Downloads                   Imagens da Lua
        Compras                         Canon S410




                                                                       6
Quantos resultados são analisados pelos
 usuários?




(Source: iprospect.com WhitePaper_2006_SearchEngineUserBehavior.pdf)
                                                                       7
Avaliação empírica dos resultados
(usuários)
 Qualidade das páginas varia bastante
    Relevância não é suficiente
    Outras qualidades desejadas (não RI!!)
        Conteúdo: Confiabilidade, diversidade, não-duplicidade
        Legibilidade: Mostrar os documentos de forma rápida e correta
        Sem aborrecimentos: pop-ups, etc.
 Precisão vs. recall
    Na Web, recall geralmente não importa
 O que importa
    Precisão na posição 1? Precisão antes da quebra de página?
    Extensão – precisa ser capaz de lidar com pesquisas obscuras
        Recall importa quando o número de resultados é muito pequeno
 A percepção dos usuários pode não ser científica mas é
  bastante significativa

                                                                         8
Avaliação empírica dos motores de busca
(usuários)
   Relevância e validade dos resultados
   UI – simples, sem desordem, tolerante a erros
   Confiança – Resultados são objetivos
   Oferta de ferramentas de Pré/Pós processamento
     Mitigar erros do usuário (correção ortográfica, assistente de busca,…)
     Explícito: Busca dentro dos resultados, mais como esses, refinar ...
     Antecipativo: consultas relacionadas
 Lida com idiossincrasias
     Vocabulário específico da web
     Endereços web digitados na caixa de busca




                                                                               9
10
A coleção de documentos da Web
           Sem projeto/coordenação
           Criação distribuída de conteúdo, ligações,
            democratização da publicação
           Conteúdo inclui verdades, mentiras,
            informação obsoleta, contradições …
           Documentos não-estruturados (text, html,
            …), semiestruturados (XML, fotos
            anotadas), estruturado (bases de dados)…
           Escala muito maior que qualquer outra
            coleção de texto
           Crescimento – desacelerou em relação ao
            boom inicial de “duplicar o volume a cada
  Web       poucos meses” mas continua se expandido
           Conteúdo pode ser gerado dinamicamente
                                                   11
SPAM
(Otimização de Motores de Busca)


                                   12
O problema com os anúncios pagos …
 Custam dinheiro! Qual seria a alternativa?
 Otimização de Motores de Busca:
    “Refinar” suas páginas para que elas sejam melhor classificadas
     nos resultados de buscas para determinadas palavras-chave
    Alternativa a pagar por classificação
    Portanto, é intrinsicamente uma atividade de marketing
 Realizado por empresas, webmasters e consultores
  (“Search engine optimizers”) para seus clientes
 Alguns perfeitamente legítimos, outros um tanto
  nebulosos


                                                                       13
Otimização de motores de busca (SPAM)
 Razões
    Comercial, política, religiosa, lobby
 Operadores
    Prestadores de serviço (Search Engine Optimizers)
    Webmasters
    Serviços de hospedagem
 Fóruns
    Web master world ( www.webmasterworld.com )
    SEO News (http://www.seonews.com/)




                                                         14
Search (Google) Bombing




                          15
Search (Google) Bombing




                          16
Search (Google) Bombing




                          17
Search (Google) Bombing




                          18
Search (Google) Bombing




                          19
Search Bombing
 As primeiras gerações de motores de busca dependiam
  fortemente do tf/idf
    As páginas mais bem classificadas para a consulta resort porto de
     galinhas eram as que continham a maior quantidade de
     ocorrências de cada palavra
 SEOs contra-atacaram com densas repetições de termos
    e.g., porto de galinhas resort porto de galinhas
     resort porto de galinhas resort
    Muitas vezes as repetições apareciam na mesma cor que o
     background da página
        Termos repetidos influenciavam a indexação
        Mas são invisíveis para os usuários

           Densidade de palavras não
             pode ser confiável em
           sistemas de busca na web                                      20
Variações da repetição de palavras-
chave
 Meta-dados enganosos, repetitivos e excessivos
 Texto escondido com cores, folhas de estilo, etc




     Meta-dados =
     “… London hotels, hotel, holiday inn, hilton, discount,
     booking, reservation, sex, mp3, britney spears, viagra, …”




                                                                  21
Cloaking
 O servidor forja o conteúdo da página para um
  motor de busca



                                          SPAM
                                      Y
                   Is this a Search
                   Engine spider?

                                      N   Real
               Cloaking                   Doc




                                                  22
Mais técnicas de SPAM
 Páginas de entrada
   Páginas otimizadas para uma única palavra-chave que
    redirecionam para a página real
 Link spamming
   Sociedades de admiração mútua, links escondidos
   Domain flooding: numerosos domínios apontando para
    uma única página




                                                          23
A guerra contra o SPAM
 Sinais de qualidade – dar               Reconhecimento de SPAM
  preferência a páginas                    com aprendizagem de
  baseado nos:                             máquina
    Votos de autores (links)                Conjunto de treinamento
                                              baseado em spam conhecido
    Votos de usuários (sinais de uso)
 Policiamento da submissão
  de URL
    Teste anti-robô
 Limite de palavras chave em
  meta-dados
 Análise robusta de links
    Ignorar encadeamentos
     estatísticamente não-plausíveis
    Usar análise de links para
     detectar spammers (culpa por
     associação)                                                          24
TAMANHO DA WEB


                 25
Qual o tamanho da Web?
 Problemas
   A web é realmente infinita
      Conteúdo dinâmico, ex., calendários
      Soft 404: www.yahoo.com/<anything> é uma página válida
   Web estática possui duplicação sintática, principalmente
    por conta do espelhamento (~30%)
   Alguns servidores estão raramente disponíveis
 Quem se importa?
   Projetista do motor de busca
   Política de spidering. Impacto no recall.


                                                                26
O que podemos tentar medir?
Os tamanhos relativos dos motores de busca
  A noção de uma página sendo indexada ainda é
   razoavelmente bem definida.
  Mas tem alguns problemas
    Extensão do documento: ex., motores indexam páginas ainda não
     recuperadas indexando o texto descritivo dos links para as páginas
     (texto âncora).
    Restrições nos Documentos: Todos os motores restringem o que
     pode ser indexado (primeiras n palavras, apenas palavras
     relevantes, etc.)




                                                                          27
Nova definição?
 A web estaticamente indexável é o que os
  motores de busca conseguem indexar.
   QI é o que os testes de QI conseguem medir.
 Motores diferentes têm preferências diferentes
 Motores diferentes indexam coisas diferentes sob a
  mesma URL:
   frames, meta-keywords, restrições de documentos, extensões de
    documentos, ...




                                                                    28
Tamanho relativo pela interseção
Dados dois motores de busca A e B
             URLs escolhidas aleatoriamente de A
             Checar se estão em B e vice versa


 A∩ B
              A∩ B =     (1/2) * Tamanho A
              A∩ B =     (1/6) * Tamanho B

              (1/2)*Tamanho A = (1/6)*Tamanho B
              ∴   Tamanho A / Tamanho B =
                        (1/6)/(1/2) = 1/3



                                                   29
DETECÇÃO DE DUPLICATAS


                         30
Documentos duplicados
 A web está cheia de conteúdo duplicado
 Detecção estrita de duplicadas = casamento
  perfeito
   Não tão comum
 Mas há muitos, muitos casos de quase-duplicatas
   Ex., a última data de modificação é a única
    diferença entre duas copias de uma página



                                                  31
Detecção de Duplicatas/Quase-duplicatas
 Duplicação: Pode ser detectada com assinaturas
 Quase-duplicação: Casamento aproximado
    Visão geral
       Computar a similaridade sintática utilizando alguma
        medida de distância de edição
       Usar um limiar de similaridade para detectar quase-
        duplicatas
          Ex., Similaridade > 80% => Documentos são quase-duplicatas




                                                                        32
Similaridade dos conjuntos Ci , Cj
                                       Ci  C j
                Jaccard(Ci , C j ) =
                                       Ci  C j
 Ver conjuntos como colunas em uma matriz A; uma
  linha para cada elemento no universo. aij = 1 indica a
  presença do item i no conjunto j
 Exemplo           C1 C2

                      0     1
                      1     0
                      1     1      Jaccard(C 1 ,C 2 ) = 2/5 = 0.4
                      0     0
                      1     1                                33
Observação Chave
 Das colunas de Ci, Cj, podemos quatro tipos de linha
          Ci Cj
      A   1   1
      B   1   0
      C   0   1
      D   0   0
 Sobrecarga de Notação : A = # de linhas do tipo A
 Portanto
                                    A
             Jaccard(Ci , C j ) =
                                  A+B+C
                                                         34

Recuperação da Informação e Busca na Web

  • 1.
    Ordenação e Recuperaçãode Dados Aula 13: Recuperação da Informação e Busca na Web Alexandre Duarte alexandre@di.ufpb.br 1 1
  • 2.
    Breve contextualização histórica Motores de busca baseados em palavras- chave 1995-1997  Altavista, Excite, Infoseek, Inktomi, Lycos  Classificação paga : Goto (transformou-se em Overture.com → Yahoo!)  A sua classificação nos resultados de busca dependia de quanto você pagava  Leilão de palavras-chave: casino era muito cara! 2
  • 3.
    Breve contextualização histórica 1998+: Classificação baseada em links é criada pela Google  Destruiu todos os outros motores de busca com exceção do Inktomi  Aumento da satisfação do usuário  Enquanto isso, o faturamento anual da Goto/Overture está perto de U$1 bilhão  Resultado : Google adiciona anúncios pagos, de forma independente dos resultados das buscas  Yahoo segue, comprando a Overture (para anúncios pagos) e Inktomi (para busca)  2005+: Google aumenta sua parcela no mercado de busca, dominando a Europa e ganhando força na América do Norte  2009: Yahoo! e Microsoft propõem um modelo combinado de busca paga 3
  • 4.
  • 5.
    Básico de buscana web Usuário Sponsored Links CG Appliance Express Discount Appliances (650) 756-3931 Same Day Certified Installation www.cgappliance.com San Francisco-Oakland-San Jose, CA Miele Vacuum Cleaners Miele Vacuums- Complete Selection Free Shipping! www.vacuums.com Miele Vacuum Cleaners Miele-Free Air shipping! All models. Helpful advice. www.best-vacuum.com Web Results 1 - 10 of about 7,310,000 for miele. (0.12 seconds) Miele, Inc -- Anything else is a compromise At the heart of your home, Appliances by Miele. ... USA. to miele.com. Residential Appliances. Vacuum Cleaners. Dishwashers. Cooking Appliances. Steam Oven. Coffee System ... www.miele.com/ - 20k - Cached - Similar pages Web spider Miele Welcome to Miele, the home of the very best appliances and kitchens in the world. www.miele.co.uk/ - 3k - Cached - Similar pages Miele - Deutscher Hersteller von Einbaugeräten, Hausgeräten ... - [ Translate this page ] Das Portal zum Thema Essen & Geniessen online unter www.zu-tisch.de. Miele weltweit ...ein Leben lang. ... Wählen Sie die Miele Vertretung Ihres Landes. www.miele.de/ - 10k - Cached - Similar pages Herzlich willkommen bei Miele Österreich - [ Translate this page ] Herzlich willkommen bei Miele Österreich Wenn Sie nicht automatisch weitergeleitet werden, klicken Sie bitte hier! HAUSHALTSGERÄTE ... www.miele.at/ - 3k - Cached - Similar pages Buscar Indexador Web Índices Índice de propagandas 5
  • 6.
    Necessidades do usuário Necessidade  Informacional – deseja aprender algo (~40% / 65%) Baixa hemoglobina  Navigacional – deseja ir a uma página (~25% / 15%) United Airlines  Transacional – desejar fazer algo (através da web) (~35% / 20%)  Acessar um serviço Tempo na Serra Gaúcha  Downloads Imagens da Lua  Compras Canon S410 6
  • 7.
    Quantos resultados sãoanalisados pelos usuários? (Source: iprospect.com WhitePaper_2006_SearchEngineUserBehavior.pdf) 7
  • 8.
    Avaliação empírica dosresultados (usuários)  Qualidade das páginas varia bastante  Relevância não é suficiente  Outras qualidades desejadas (não RI!!)  Conteúdo: Confiabilidade, diversidade, não-duplicidade  Legibilidade: Mostrar os documentos de forma rápida e correta  Sem aborrecimentos: pop-ups, etc.  Precisão vs. recall  Na Web, recall geralmente não importa  O que importa  Precisão na posição 1? Precisão antes da quebra de página?  Extensão – precisa ser capaz de lidar com pesquisas obscuras  Recall importa quando o número de resultados é muito pequeno  A percepção dos usuários pode não ser científica mas é bastante significativa 8
  • 9.
    Avaliação empírica dosmotores de busca (usuários)  Relevância e validade dos resultados  UI – simples, sem desordem, tolerante a erros  Confiança – Resultados são objetivos  Oferta de ferramentas de Pré/Pós processamento  Mitigar erros do usuário (correção ortográfica, assistente de busca,…)  Explícito: Busca dentro dos resultados, mais como esses, refinar ...  Antecipativo: consultas relacionadas  Lida com idiossincrasias  Vocabulário específico da web  Endereços web digitados na caixa de busca 9
  • 10.
  • 11.
    A coleção dedocumentos da Web  Sem projeto/coordenação  Criação distribuída de conteúdo, ligações, democratização da publicação  Conteúdo inclui verdades, mentiras, informação obsoleta, contradições …  Documentos não-estruturados (text, html, …), semiestruturados (XML, fotos anotadas), estruturado (bases de dados)…  Escala muito maior que qualquer outra coleção de texto  Crescimento – desacelerou em relação ao boom inicial de “duplicar o volume a cada Web poucos meses” mas continua se expandido  Conteúdo pode ser gerado dinamicamente 11
  • 12.
  • 13.
    O problema comos anúncios pagos …  Custam dinheiro! Qual seria a alternativa?  Otimização de Motores de Busca:  “Refinar” suas páginas para que elas sejam melhor classificadas nos resultados de buscas para determinadas palavras-chave  Alternativa a pagar por classificação  Portanto, é intrinsicamente uma atividade de marketing  Realizado por empresas, webmasters e consultores (“Search engine optimizers”) para seus clientes  Alguns perfeitamente legítimos, outros um tanto nebulosos 13
  • 14.
    Otimização de motoresde busca (SPAM)  Razões  Comercial, política, religiosa, lobby  Operadores  Prestadores de serviço (Search Engine Optimizers)  Webmasters  Serviços de hospedagem  Fóruns  Web master world ( www.webmasterworld.com )  SEO News (http://www.seonews.com/) 14
  • 15.
  • 16.
  • 17.
  • 18.
  • 19.
  • 20.
    Search Bombing  Asprimeiras gerações de motores de busca dependiam fortemente do tf/idf  As páginas mais bem classificadas para a consulta resort porto de galinhas eram as que continham a maior quantidade de ocorrências de cada palavra  SEOs contra-atacaram com densas repetições de termos  e.g., porto de galinhas resort porto de galinhas resort porto de galinhas resort  Muitas vezes as repetições apareciam na mesma cor que o background da página  Termos repetidos influenciavam a indexação  Mas são invisíveis para os usuários Densidade de palavras não pode ser confiável em sistemas de busca na web 20
  • 21.
    Variações da repetiçãode palavras- chave  Meta-dados enganosos, repetitivos e excessivos  Texto escondido com cores, folhas de estilo, etc Meta-dados = “… London hotels, hotel, holiday inn, hilton, discount, booking, reservation, sex, mp3, britney spears, viagra, …” 21
  • 22.
    Cloaking  O servidorforja o conteúdo da página para um motor de busca SPAM Y Is this a Search Engine spider? N Real Cloaking Doc 22
  • 23.
    Mais técnicas deSPAM  Páginas de entrada  Páginas otimizadas para uma única palavra-chave que redirecionam para a página real  Link spamming  Sociedades de admiração mútua, links escondidos  Domain flooding: numerosos domínios apontando para uma única página 23
  • 24.
    A guerra contrao SPAM  Sinais de qualidade – dar  Reconhecimento de SPAM preferência a páginas com aprendizagem de baseado nos: máquina  Votos de autores (links)  Conjunto de treinamento baseado em spam conhecido  Votos de usuários (sinais de uso)  Policiamento da submissão de URL  Teste anti-robô  Limite de palavras chave em meta-dados  Análise robusta de links  Ignorar encadeamentos estatísticamente não-plausíveis  Usar análise de links para detectar spammers (culpa por associação) 24
  • 25.
  • 26.
    Qual o tamanhoda Web?  Problemas  A web é realmente infinita  Conteúdo dinâmico, ex., calendários  Soft 404: www.yahoo.com/<anything> é uma página válida  Web estática possui duplicação sintática, principalmente por conta do espelhamento (~30%)  Alguns servidores estão raramente disponíveis  Quem se importa?  Projetista do motor de busca  Política de spidering. Impacto no recall. 26
  • 27.
    O que podemostentar medir? Os tamanhos relativos dos motores de busca  A noção de uma página sendo indexada ainda é razoavelmente bem definida.  Mas tem alguns problemas  Extensão do documento: ex., motores indexam páginas ainda não recuperadas indexando o texto descritivo dos links para as páginas (texto âncora).  Restrições nos Documentos: Todos os motores restringem o que pode ser indexado (primeiras n palavras, apenas palavras relevantes, etc.) 27
  • 28.
    Nova definição?  Aweb estaticamente indexável é o que os motores de busca conseguem indexar.  QI é o que os testes de QI conseguem medir.  Motores diferentes têm preferências diferentes  Motores diferentes indexam coisas diferentes sob a mesma URL:  frames, meta-keywords, restrições de documentos, extensões de documentos, ... 28
  • 29.
    Tamanho relativo pelainterseção Dados dois motores de busca A e B URLs escolhidas aleatoriamente de A Checar se estão em B e vice versa A∩ B A∩ B = (1/2) * Tamanho A A∩ B = (1/6) * Tamanho B (1/2)*Tamanho A = (1/6)*Tamanho B ∴ Tamanho A / Tamanho B = (1/6)/(1/2) = 1/3 29
  • 30.
  • 31.
    Documentos duplicados  Aweb está cheia de conteúdo duplicado  Detecção estrita de duplicadas = casamento perfeito  Não tão comum  Mas há muitos, muitos casos de quase-duplicatas  Ex., a última data de modificação é a única diferença entre duas copias de uma página 31
  • 32.
    Detecção de Duplicatas/Quase-duplicatas Duplicação: Pode ser detectada com assinaturas  Quase-duplicação: Casamento aproximado  Visão geral  Computar a similaridade sintática utilizando alguma medida de distância de edição  Usar um limiar de similaridade para detectar quase- duplicatas  Ex., Similaridade > 80% => Documentos são quase-duplicatas 32
  • 33.
    Similaridade dos conjuntosCi , Cj Ci  C j Jaccard(Ci , C j ) = Ci  C j  Ver conjuntos como colunas em uma matriz A; uma linha para cada elemento no universo. aij = 1 indica a presença do item i no conjunto j  Exemplo C1 C2 0 1 1 0 1 1 Jaccard(C 1 ,C 2 ) = 2/5 = 0.4 0 0 1 1 33
  • 34.
    Observação Chave  Dascolunas de Ci, Cj, podemos quatro tipos de linha Ci Cj A 1 1 B 1 0 C 0 1 D 0 0  Sobrecarga de Notação : A = # de linhas do tipo A  Portanto A Jaccard(Ci , C j ) = A+B+C 34