• Autores: André Araujo, Luiz Henrique Pinho de Sá, Rodrigo Leite
• Curso: Engenharia de Computação e Informação - UFRJ
• Disciplina: Telecomunicações
• Ano: 2013
Apresentação sobre Mecanismo de Busca: arquitetura, etapas, modelos de Recuperação da Informação, Google (PageRank), Bing, Yahoo e tendências.
9. #2 Preparação dos documentos
Criação de uma representação
computacional do documento
Doc : www.filosofia.com
“Se o desonesto
soubesse a vantagem
de ser honesto, ele
seria honesto ao menos
por desonestidade.”
Sócrates
Documento original
Doc : www.filosofia.com
desonesto honesto
soubesse menos
vantagem desonestidade
honesto socrates
seria
Operações de texto
(palavras-chave)
Doc : www.filosofia.com
honesto 2
desonesto 1
soubesse 1
vantagem 1
seria 1
menos 1
desonestidade 1
socrates 1
Representação
10. #3 Indexação dos documentos
Índice invertido
pode ser criado
em 2 fases
1ª fase: Scanning
2ª fase: Inversão
termo1 - doc1, doc7,...
termo2 – doc14, ...
... - ...
Arquivos Invertidos
11. Armazena a frequência dos termos
Armazena a posição dos termos
Anchor text
Link popularity score (PageRank)
#3 Indexação dos documentos
18. Representação do Documento
• Vetor dj = (w1, w2, ... , wn)
• Peso wi ∈ {0, 1}
• 0: dj ⊅ ti
• 1: dj ⊃ ti
• Dado conjunto Vocabulário V = {t1, t2,..., tn}
• ti: termos representativos para o corpus
• Ex.: d1 = (1, 1, 0)
• d1 ⊃ t1, d1 ⊃ t2, d1 ⊅ t3
dj
19. Consulta q: expressão
lógica com termos
usando ^, v e ¬
Ex.: t1 ^ (t2 v ¬t3)
Expressão lógica convertida em vetores que
tornam essa expressão Verdadeira (igual a 1)!
Documento se casa com a consulta se:
vetor dj = algum dos vetores gerados pela consulta
Representação da Consulta
q
23.
Não permite casamento parcial
entre consulta e documento
Nem todos sabem expressar a
consulta numa expressão lógica
24.
Assume independência entre
termos usados na indexação
Ex.:
q1: sistema operacional
q2: sistema operacional embarcado
Resultados(q1) != Resultados(q2)
26. q = (w1,q, w2,q, ... , wn,q)
dj = (w1,j, w2,j, ... , wn,j)
wi,q ∈ ℝ+
wi,j ∈ ℝ+
Pode casamento parcial!
a) Vetores q e dj estão num espaço n-dimensional!
b) Cálculo do grau de Similaridade
(“Relevância”) entre q e dj
c) Cálculo dos pesos de dj (e de q)
27. a) Vetores q e dj no espaço
Dado conjunto Vocabulário V = {t1, t2,..., tn},
termos de V são eixos do espaço vetorial!
28. b) Cálculo da Similaridade
Como medir a Similaridade (“Relevância”)
entre a consulta e documento?
Ou melhor, como medir a
Similaridade entre dois vetores (q e dj)?
__ __ __ __ __ __ __C S S NEO O
29. b) Cálculo da Similaridade
No exemplo visto em (a): Sim = 0,83
Bem
similar!
31. c) Cálculo dos pesos de dj
Peso = frequência do termo no documento!
nº de documentos
onde o termo aparece
nº de ocorrências do
termo no documento
32. c) Cálculo dos pesos de dj
• dj: documento
• ti: termo
• freqi,j: frequência de ti em dj
Term
Frequency
Inverse Document
Frequency
• ni: nº de documentos que contêm ti
• N: nº total de documentos do corpus
• maxl freql,j : frequência do termo mais
frequente em dj
40. Importância das páginas (ou documento) é
calculada baseada no número de páginas que
aponta para ela: Backlinks
Peso utilizado para aumentar a importância das
páginas apontadas pelos Backlinks!
B e C são
Backlinks de A
41. • PageRank: probabilidade de um “surfista
aleatório” visitar a página
• Parâmetro p: probabilidade do surfista se
cansar e começar em outra página aleatória
• (1-p): probabilidade de que o surfista siga um
link na página atual
• OutDegree: hyperlinks na página u
vu uOutDegree
uPageRank
ppvPageRank
)(
)(
)1()(
42. Conclusão
Cada modelo é mais
adequado para um
determinado contexto
PageRank é eficiente por
tirar proveito da conexão
entre documentos
43. Referências bibliográficas
1. BARTH, F. J. Uma breve introdução ao tema Recuperação da
Informação, São Paulo, 2010.
2. CARDOSO, O. N. P. Recuperação da Informação, UFLA.
3. GALLINA, L. Z., JÚNIOR, R. R. Pagerank para ordenação de Resultados
em Ferramenta de Busca na Web, UFRGS.
4. HAWKING, D. Web Search Engines, CSIRO, 2006.
5. http://cs.wellesley.edu/~pmetaxas/HowGoogleWorks_WUD06.pdf
(acessado em Outubro, 2013)
6. www.slideshare.net/niltonheck/aula-02-recuperao-da-
informao-modelos-de-sistemas-de-recuperao
(acessado em Outubro, 2013)
7. www.google.com/insidesearch/howsearchworks/
(acessado em Outubro, 2013)
53. • A: matriz de adjacências
• Aij =
• 1, se j aponta i
• 0, caso contrário
• dj: grau da página j (total de páginas que j aponta)
• πi: PageRank da página i
56. Cadeia ergódica
Existe um número finito N
tal que qualquer estado
pode ser atingido a partir
de qualquer outro estado
em exatamente N passos
Uma cadeia ergódica não
possui nem sumidouro nem
fonte, logo é irredutível!
Ergodicidade
57. • Páginas confiáveis: {Facebook, Yahoo}
• d: probabilidade de clicar em um link
• 1-d: probabilidade de não clicar em um link
58. • π: vetor de PageRanks de toda a Web
• τ: conjunto de páginas confiáveis
• nτ: tamanho de τ
• T: vetor tal que Ti =
• 1/n, caso i seja uma página confiável
• 0, caso i não seja uma página confiável
73. Número de backlinks
Conteúdo novo
Redes sociais
Buscas ambíguas: 2 resultados
mais populares de cada assunto
Palavras-chave: usa sinônimos e contexto
74. Texto de âncora
Conteúdo de sites antigos
Meta-descrições
Buscas ambíguas: prioriza resultados locais
Palavras-chave: busca palavras exatas
75.
76. “Microsoft e Yahoo anunciam
acordo na área de search” (2009)
Carol Bartz e Steve Balmer
77. Acordo por 10 anos
Microsoft terá acesso à tecnologia
de search do Yahoo
Bing será o único algoritmo de search e
plataforma de anúncios dos sites do Yahoo
Cada empresa manterá a sua marca e
continuam a ter suas equipes
84. Referências bibliográficas
1. US Patent Number 7,814,108
2. US Patent Number 8,082,246
3. SIQUEIRA, I. C. P. S. Mecanismos de busca na Web: passado, presente e futuro,
Universidade de São Paulo, 2013.
4. SOUZA, R. R. Sistemas de Recuperação de Informações e Mecanismos de Busca na
web: panorama atual e tendências, Belo Horizonte, 2006.
5. MOL, R. S. A matemática do Google, 2007.
6. AURELIANO, J. W. R. O futuro da web: perspectivas e os motores de busca, São
Paulo, 2011.
7. http://scenic.princeton.edu/network20q/wiki/index.php?title=Bing%27s_Algorithm
(acessado em Dezembro, 2013)
8. http://idgnow.uol.com.br/internet/2013/11/14/google-lidera-buscas-no-brasil-
com-mais-de-90-bing-aparece-em-2b0-lugar/ (acessado em Dezembro, 2013)
9. www.google.com/insidesearch/howsearchworks/
(acessado em Dezembro, 2013)