SlideShare uma empresa Scribd logo
1 de 85
Baixar para ler offline
Mecanismo de Busca
André Araujo
Luiz Henrique Pinho
Rodrigo Leite
Introdução
Arquitetura
Etapas
Modelos de RI
Conclusão
www.opte.org/maps
Informação++
Organização--
Grafo direcionado
Repositório
Páginas (da Web)
Indexador
Índice de
(Texto)
Documentos
Índice de
(Link)
Estrutura
Mecanismo
de Busca
Modelo de RI
(Ex.: PageRank)
Consulta
Resultados
Corpus
(Web: documentos ligados)
Crawlers
Spiders
Robots
Aquisição
Aquisição (seleção) dos documentos
Preparação dos documentos
Indexação dos documentos
Armazenamento
Recuperação
#1 Aquisição (seleção) dos documentos
Automática
Web
Crawlers, spiders
ou robots
Breadth-First Search ou
Depth-First Search
Manual
Sistemas menores
#1 Aquisição (seleção) dos documentos
BFS
O(|V|+|E|)
#1 Aquisição (seleção) dos documentos
DFS
O(|V|+|E|)
#2 Preparação dos documentos
Criação de uma representação
computacional do documento
Doc : www.filosofia.com
“Se o desonesto
soubesse a vantagem
de ser honesto, ele
seria honesto ao menos
por desonestidade.”
Sócrates
Documento original
Doc : www.filosofia.com
desonesto honesto
soubesse menos
vantagem desonestidade
honesto socrates
seria
Operações de texto
(palavras-chave)
Doc : www.filosofia.com
honesto 2
desonesto 1
soubesse 1
vantagem 1
seria 1
menos 1
desonestidade 1
socrates 1
Representação
#3 Indexação dos documentos
Índice invertido
pode ser criado
em 2 fases
1ª fase: Scanning
2ª fase: Inversão
termo1 - doc1, doc7,...
termo2 – doc14, ...
... - ...
Arquivos Invertidos
Armazena a frequência dos termos
Armazena a posição dos termos
Anchor text
Link popularity score (PageRank)
#3 Indexação dos documentos
#4 Armazenamento
Armazenamento dos
arquivos de índices
+
Armazenamento dos arquivos
dos documentos
#5 Recuperação
Ordenação
Difícil mensurar
Relevância!
Similaridade entre
consulta e cada
documento
Modelos de RI!
Busca
Retornar links apenas
para os documentos do
corpus que satisfazem a
consulta
Modelos
de RI
<D, Q, F, R(qi,dj)>
R ∈ ℝ
qi ∈ Q
dj ∈ D
Modelos
de RI
Booleano
Vetorial
Baseado em
hyperlinks
Modelos
de RI
Booleano
Vetorial
Baseado em
hyperlinks
É ou não é
relevante!
Modelo Booleano
Representação do Documento
• Vetor dj = (w1, w2, ... , wn)
• Peso wi ∈ {0, 1}
• 0: dj ⊅ ti
• 1: dj ⊃ ti
• Dado conjunto Vocabulário V = {t1, t2,..., tn}
• ti: termos representativos para o corpus
• Ex.: d1 = (1, 1, 0)
• d1 ⊃ t1, d1 ⊃ t2, d1 ⊅ t3
dj
Consulta q: expressão
lógica com termos
usando ^, v e ¬
Ex.: t1 ^ (t2 v ¬t3)
Expressão lógica convertida em vetores que
tornam essa expressão Verdadeira (igual a 1)!
Documento se casa com a consulta se:
vetor dj = algum dos vetores gerados pela consulta
Representação da Consulta
q
d1 = (1, 1, 0)
q = t1 ^ (t2 v ¬t3)
t1 t2 t3 q
0 0 0 0
0 0 1 0
0 1 0 0
0 1 1 0
1 0 0 1
1 0 1 0
1 1 0 1
1 1 1 1
(1, 0, 0)
(1, 1, 0)
(1, 1, 1)
Exemplo
d1 = (1, 1, 0)
q = t1 ^ (t2 v ¬t3)
t1 t2 t3 q
0 0 0 0
0 0 1 0
0 1 0 0
0 1 1 0
1 0 0 1
1 0 1 0
1 1 0 1
1 1 1 1
(1, 0, 0)
(1, 1, 0)
(1, 1, 1)
Exemplo

Simplicidade
Facilmente programável
Exato

Não permite casamento parcial
entre consulta e documento
Nem todos sabem expressar a
consulta numa expressão lógica

Assume independência entre
termos usados na indexação
Ex.:
q1: sistema operacional
q2: sistema operacional embarcado
Resultados(q1) != Resultados(q2)
Modelo Vetorial
q = (w1,q, w2,q, ... , wn,q)
dj = (w1,j, w2,j, ... , wn,j)
wi,q ∈ ℝ+
wi,j ∈ ℝ+
Pode casamento parcial!
a) Vetores q e dj estão num espaço n-dimensional!
b) Cálculo do grau de Similaridade
(“Relevância”) entre q e dj
c) Cálculo dos pesos de dj (e de q)
a) Vetores q e dj no espaço
Dado conjunto Vocabulário V = {t1, t2,..., tn},
termos de V são eixos do espaço vetorial!
b) Cálculo da Similaridade
Como medir a Similaridade (“Relevância”)
entre a consulta e documento?
Ou melhor, como medir a
Similaridade entre dois vetores (q e dj)?
__ __ __ __ __ __ __C S S NEO O
b) Cálculo da Similaridade
No exemplo visto em (a): Sim = 0,83
Bem
similar!
t1 t2 t3 cos(ϴ)
d1 1 0 0 0,27
d2 1 2 4 0,99
d3 2 0 1 0,60
d4 0 1 3 0,93
q 1 2 3
Outros exemplos
c) Cálculo dos pesos de dj
Peso = frequência do termo no documento!
nº de documentos
onde o termo aparece
nº de ocorrências do
termo no documento
c) Cálculo dos pesos de dj
• dj: documento
• ti: termo
• freqi,j: frequência de ti em dj
Term
Frequency
Inverse Document
Frequency
• ni: nº de documentos que contêm ti
• N: nº total de documentos do corpus
• maxl freql,j : frequência do termo mais
frequente em dj

Assume
independência
entre os termos
usados na
indexação

Permite
casamento parcial
entre consulta
e documento
Modelo
baseado
em hyperlinks
HITS
PageRank
HITS
Hyperlink-Induces Topic Search
d2
Premissas
Hiperlink
d1
Authoritative Pages = páginas importantes
Hub Pages = contêm links para Authoritative Pages
Hubs
Authorities
PageRank
Importância das páginas (ou documento) é
calculada baseada no número de páginas que
aponta para ela: Backlinks
Peso utilizado para aumentar a importância das
páginas apontadas pelos Backlinks!
B e C são
Backlinks de A
• PageRank: probabilidade de um “surfista
aleatório” visitar a página
• Parâmetro p: probabilidade do surfista se
cansar e começar em outra página aleatória
• (1-p): probabilidade de que o surfista siga um
link na página atual
• OutDegree: hyperlinks na página u


vu uOutDegree
uPageRank
ppvPageRank
)(
)(
)1()(
Conclusão
Cada modelo é mais
adequado para um
determinado contexto
PageRank é eficiente por
tirar proveito da conexão
entre documentos
Referências bibliográficas
1. BARTH, F. J. Uma breve introdução ao tema Recuperação da
Informação, São Paulo, 2010.
2. CARDOSO, O. N. P. Recuperação da Informação, UFLA.
3. GALLINA, L. Z., JÚNIOR, R. R. Pagerank para ordenação de Resultados
em Ferramenta de Busca na Web, UFRGS.
4. HAWKING, D. Web Search Engines, CSIRO, 2006.
5. http://cs.wellesley.edu/~pmetaxas/HowGoogleWorks_WUD06.pdf
(acessado em Outubro, 2013)
6. www.slideshare.net/niltonheck/aula-02-recuperao-da-
informao-modelos-de-sistemas-de-recuperao
(acessado em Outubro, 2013)
7. www.google.com/insidesearch/howsearchworks/
(acessado em Outubro, 2013)
Obrigado!
Mecanismo de Busca
André Araujo
Luiz Henrique Pinho
Rodrigo Leite
Introdução
Google (PageRank)
Bing
Yahoo
Tendências
90,09%
3,75% 2,83%
Fonte: StatCounter GlobalStats (Junho, 2013)
91,97%
4,66% 0,49%
Fonte: IDGNow.uol.com.br (Novembro, 2013)
# palavras
44,04%
Fonte: IDGNow.uol.com.br (Novembro, 2013)
1 2 3 4 5
21,52% 15,48%
7,32% 5,06%
PageRank
Legal, mas...
De onde veio isso?
• A: matriz de adjacências
• Aij =
• 1, se j aponta i
• 0, caso contrário
• dj: grau da página j (total de páginas que j aponta)
• πi: PageRank da página i
Sumidouro
A
B
C
Cadeia ergódica
Existe um número finito N
tal que qualquer estado
pode ser atingido a partir
de qualquer outro estado
em exatamente N passos
Uma cadeia ergódica não
possui nem sumidouro nem
fonte, logo é irredutível!
Ergodicidade
• Páginas confiáveis: {Facebook, Yahoo}
• d: probabilidade de clicar em um link
• 1-d: probabilidade de não clicar em um link
• π: vetor de PageRanks de toda a Web
• τ: conjunto de páginas confiáveis
• nτ: tamanho de τ
• T: vetor tal que Ti =
• 1/n, caso i seja uma página confiável
• 0, caso i não seja uma página confiável
Pontuação de relevância
+
Distância de cliques
Pontuação de relevância
D
j
Q
D
DQ
Pontuação de
Cobertura
Pontuação de
Importância
da palavra
Frequência
do termo
D
DQ
EQ
Seleção dos documentos Essenciais
Distância de cliques
distância de
cliques = 2
Número de backlinks
Conteúdo novo
Redes sociais
Buscas ambíguas: 2 resultados
mais populares de cada assunto
Palavras-chave: usa sinônimos e contexto
Texto de âncora
Conteúdo de sites antigos
Meta-descrições
Buscas ambíguas: prioriza resultados locais
Palavras-chave: busca palavras exatas
“Microsoft e Yahoo anunciam
acordo na área de search” (2009)
Carol Bartz e Steve Balmer
Acordo por 10 anos
Microsoft terá acesso à tecnologia
de search do Yahoo
Bing será o único algoritmo de search e
plataforma de anúncios dos sites do Yahoo
Cada empresa manterá a sua marca e
continuam a ter suas equipes
Tendências
Respeita privacidade
Busca no Google para você
Mecanismo de conhecimento
Perguntas e respostas
The Talking Wikipedia
Buscador de pessoas
Web Semântica
Google Knowledge Graph
Referências bibliográficas
1. US Patent Number 7,814,108
2. US Patent Number 8,082,246
3. SIQUEIRA, I. C. P. S. Mecanismos de busca na Web: passado, presente e futuro,
Universidade de São Paulo, 2013.
4. SOUZA, R. R. Sistemas de Recuperação de Informações e Mecanismos de Busca na
web: panorama atual e tendências, Belo Horizonte, 2006.
5. MOL, R. S. A matemática do Google, 2007.
6. AURELIANO, J. W. R. O futuro da web: perspectivas e os motores de busca, São
Paulo, 2011.
7. http://scenic.princeton.edu/network20q/wiki/index.php?title=Bing%27s_Algorithm
(acessado em Dezembro, 2013)
8. http://idgnow.uol.com.br/internet/2013/11/14/google-lidera-buscas-no-brasil-
com-mais-de-90-bing-aparece-em-2b0-lugar/ (acessado em Dezembro, 2013)
9. www.google.com/insidesearch/howsearchworks/
(acessado em Dezembro, 2013)
Obrigado!

Mais conteúdo relacionado

Semelhante a Modelos de busca e tendências

Web Semantica e Ontologias por GT4 FC em EC 2014
Web Semantica e Ontologias por GT4 FC em EC 2014Web Semantica e Ontologias por GT4 FC em EC 2014
Web Semantica e Ontologias por GT4 FC em EC 2014Rogerio P C do Nascimento
 
Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...Avelino Ferreira Gomes Filho
 
BMT20231 300 200 Modelo Vetorial.pdf
BMT20231 300 200 Modelo Vetorial.pdfBMT20231 300 200 Modelo Vetorial.pdf
BMT20231 300 200 Modelo Vetorial.pdfGeraldo Xexéo
 
Aula02-RI-Modelo-Booleano.pdf
Aula02-RI-Modelo-Booleano.pdfAula02-RI-Modelo-Booleano.pdf
Aula02-RI-Modelo-Booleano.pdfAntonio Lobato
 
[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...
[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...
[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...Ana Carolina Simionato
 
Tag Suggestion using Multiple Sources of Knowledge
Tag Suggestion using Multiple Sources of KnowledgeTag Suggestion using Multiple Sources of Knowledge
Tag Suggestion using Multiple Sources of KnowledgeÍcaro Medeiros
 
Obtendo Informação Útil em Dados Semi-Estruturados da Web
Obtendo Informação Útil em Dados Semi-Estruturados da WebObtendo Informação Útil em Dados Semi-Estruturados da Web
Obtendo Informação Útil em Dados Semi-Estruturados da WebLuiz Matos
 
NOSQL uma breve introdução
NOSQL uma breve introduçãoNOSQL uma breve introdução
NOSQL uma breve introduçãoWise Systems
 
Avaliacao Coopractice
Avaliacao CoopracticeAvaliacao Coopractice
Avaliacao Coopracticeamandavarella
 
Web Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitterWeb Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitterFabrício Barth
 
Ferramentas de pesquisa e Latex
Ferramentas de pesquisa e LatexFerramentas de pesquisa e Latex
Ferramentas de pesquisa e LatexThiago Furtado
 
NOSQL_Uma_breve_introducao.pptx
NOSQL_Uma_breve_introducao.pptxNOSQL_Uma_breve_introducao.pptx
NOSQL_Uma_breve_introducao.pptxEizoKato
 
Automacao com Python.pdf
Automacao com Python.pdfAutomacao com Python.pdf
Automacao com Python.pdfSecont
 
Apresentação - Ontologia do Processo Legislativo de SP - 2o. ENDA
Apresentação - Ontologia do Processo Legislativo de SP - 2o. ENDAApresentação - Ontologia do Processo Legislativo de SP - 2o. ENDA
Apresentação - Ontologia do Processo Legislativo de SP - 2o. ENDAFrederico Bortolato
 

Semelhante a Modelos de busca e tendências (20)

Workshop MongoDB
Workshop MongoDBWorkshop MongoDB
Workshop MongoDB
 
Web Data Mining com R
Web Data Mining com RWeb Data Mining com R
Web Data Mining com R
 
Pesquisa na web_lana
Pesquisa na web_lanaPesquisa na web_lana
Pesquisa na web_lana
 
Pesquisa na Web
Pesquisa na WebPesquisa na Web
Pesquisa na Web
 
Web Semantica e Ontologias por GT4 FC em EC 2014
Web Semantica e Ontologias por GT4 FC em EC 2014Web Semantica e Ontologias por GT4 FC em EC 2014
Web Semantica e Ontologias por GT4 FC em EC 2014
 
Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...Resumo sobre Recovering from a decade: a systematic mapping of information re...
Resumo sobre Recovering from a decade: a systematic mapping of information re...
 
BMT20231 300 200 Modelo Vetorial.pdf
BMT20231 300 200 Modelo Vetorial.pdfBMT20231 300 200 Modelo Vetorial.pdf
BMT20231 300 200 Modelo Vetorial.pdf
 
Aula02-RI-Modelo-Booleano.pdf
Aula02-RI-Modelo-Booleano.pdfAula02-RI-Modelo-Booleano.pdf
Aula02-RI-Modelo-Booleano.pdf
 
[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...
[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...
[Minicurso - Módulo 3] Representação de imagens fotográficas e digitais: teor...
 
Tag Suggestion using Multiple Sources of Knowledge
Tag Suggestion using Multiple Sources of KnowledgeTag Suggestion using Multiple Sources of Knowledge
Tag Suggestion using Multiple Sources of Knowledge
 
Obtendo Informação Útil em Dados Semi-Estruturados da Web
Obtendo Informação Útil em Dados Semi-Estruturados da WebObtendo Informação Útil em Dados Semi-Estruturados da Web
Obtendo Informação Útil em Dados Semi-Estruturados da Web
 
NOSQL uma breve introdução
NOSQL uma breve introduçãoNOSQL uma breve introdução
NOSQL uma breve introdução
 
Avaliacao Coopractice
Avaliacao CoopracticeAvaliacao Coopractice
Avaliacao Coopractice
 
Web Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitterWeb Data Mining em R: agrupamento de mensagens do twitter
Web Data Mining em R: agrupamento de mensagens do twitter
 
Ferramentas de pesquisa e Latex
Ferramentas de pesquisa e LatexFerramentas de pesquisa e Latex
Ferramentas de pesquisa e Latex
 
Elasticsearch
ElasticsearchElasticsearch
Elasticsearch
 
NOSQL_Uma_breve_introducao.pptx
NOSQL_Uma_breve_introducao.pptxNOSQL_Uma_breve_introducao.pptx
NOSQL_Uma_breve_introducao.pptx
 
Automacao com Python.pdf
Automacao com Python.pdfAutomacao com Python.pdf
Automacao com Python.pdf
 
Apresentação - Ontologia do Processo Legislativo de SP - 2o. ENDA
Apresentação - Ontologia do Processo Legislativo de SP - 2o. ENDAApresentação - Ontologia do Processo Legislativo de SP - 2o. ENDA
Apresentação - Ontologia do Processo Legislativo de SP - 2o. ENDA
 
Deep Learning e NLP
Deep Learning e NLPDeep Learning e NLP
Deep Learning e NLP
 

Mais de Luiz Henrique Pinho de Sá

Product Management - Proposta de abordagem para atacar problema em produto di...
Product Management - Proposta de abordagem para atacar problema em produto di...Product Management - Proposta de abordagem para atacar problema em produto di...
Product Management - Proposta de abordagem para atacar problema em produto di...Luiz Henrique Pinho de Sá
 
Product Management - Apostas para aumentar liquidez de site de classificados ...
Product Management - Apostas para aumentar liquidez de site de classificados ...Product Management - Apostas para aumentar liquidez de site de classificados ...
Product Management - Apostas para aumentar liquidez de site de classificados ...Luiz Henrique Pinho de Sá
 
Modelagem fuzzy para avaliação técnica de jogadores de futebol
Modelagem fuzzy para avaliação técnica de jogadores de futebolModelagem fuzzy para avaliação técnica de jogadores de futebol
Modelagem fuzzy para avaliação técnica de jogadores de futebolLuiz Henrique Pinho de Sá
 
Jogo de abertura de restaurante no Centro de Tecnologia - UFRJ
Jogo de abertura de restaurante no Centro de Tecnologia - UFRJJogo de abertura de restaurante no Centro de Tecnologia - UFRJ
Jogo de abertura de restaurante no Centro de Tecnologia - UFRJLuiz Henrique Pinho de Sá
 
Design de Interação - Entendendo, conceituando e abordagem centrada no usuário
Design de Interação - Entendendo, conceituando e abordagem centrada no usuárioDesign de Interação - Entendendo, conceituando e abordagem centrada no usuário
Design de Interação - Entendendo, conceituando e abordagem centrada no usuárioLuiz Henrique Pinho de Sá
 
Filme "Up: Altas Aventuras" - Análise psicológica
Filme "Up: Altas Aventuras" - Análise psicológicaFilme "Up: Altas Aventuras" - Análise psicológica
Filme "Up: Altas Aventuras" - Análise psicológicaLuiz Henrique Pinho de Sá
 
Projeto Deusa Cake Designer - Plano de Negócios
Projeto Deusa Cake Designer - Plano de NegóciosProjeto Deusa Cake Designer - Plano de Negócios
Projeto Deusa Cake Designer - Plano de NegóciosLuiz Henrique Pinho de Sá
 

Mais de Luiz Henrique Pinho de Sá (18)

Product Management - Proposta de abordagem para atacar problema em produto di...
Product Management - Proposta de abordagem para atacar problema em produto di...Product Management - Proposta de abordagem para atacar problema em produto di...
Product Management - Proposta de abordagem para atacar problema em produto di...
 
Product Management - Apostas para aumentar liquidez de site de classificados ...
Product Management - Apostas para aumentar liquidez de site de classificados ...Product Management - Apostas para aumentar liquidez de site de classificados ...
Product Management - Apostas para aumentar liquidez de site de classificados ...
 
Modelagem fuzzy para avaliação técnica de jogadores de futebol
Modelagem fuzzy para avaliação técnica de jogadores de futebolModelagem fuzzy para avaliação técnica de jogadores de futebol
Modelagem fuzzy para avaliação técnica de jogadores de futebol
 
Inteligência de Enxames: Abelhas
Inteligência de Enxames: AbelhasInteligência de Enxames: Abelhas
Inteligência de Enxames: Abelhas
 
PespiCo Brasil - Plano de Marketing
PespiCo Brasil - Plano de MarketingPespiCo Brasil - Plano de Marketing
PespiCo Brasil - Plano de Marketing
 
O computador e a contracultura
O computador e a contraculturaO computador e a contracultura
O computador e a contracultura
 
Jogo de abertura de restaurante no Centro de Tecnologia - UFRJ
Jogo de abertura de restaurante no Centro de Tecnologia - UFRJJogo de abertura de restaurante no Centro de Tecnologia - UFRJ
Jogo de abertura de restaurante no Centro de Tecnologia - UFRJ
 
O ciclo da negociação
O ciclo da negociaçãoO ciclo da negociação
O ciclo da negociação
 
Spanning Trees e Shortest Path Bridging
Spanning Trees e Shortest Path BridgingSpanning Trees e Shortest Path Bridging
Spanning Trees e Shortest Path Bridging
 
Gerenciamento de Identidades
Gerenciamento de IdentidadesGerenciamento de Identidades
Gerenciamento de Identidades
 
Design de Interação - Entendendo, conceituando e abordagem centrada no usuário
Design de Interação - Entendendo, conceituando e abordagem centrada no usuárioDesign de Interação - Entendendo, conceituando e abordagem centrada no usuário
Design de Interação - Entendendo, conceituando e abordagem centrada no usuário
 
CORBA
CORBACORBA
CORBA
 
Filme "Up: Altas Aventuras" - Análise psicológica
Filme "Up: Altas Aventuras" - Análise psicológicaFilme "Up: Altas Aventuras" - Análise psicológica
Filme "Up: Altas Aventuras" - Análise psicológica
 
Bath Truck - Modelo de negócio
Bath Truck - Modelo de negócioBath Truck - Modelo de negócio
Bath Truck - Modelo de negócio
 
Projeto Deusa Cake Designer - Plano de Negócios
Projeto Deusa Cake Designer - Plano de NegóciosProjeto Deusa Cake Designer - Plano de Negócios
Projeto Deusa Cake Designer - Plano de Negócios
 
Efeitos Visuais
Efeitos VisuaisEfeitos Visuais
Efeitos Visuais
 
Robótica e Sistemas Sensoriais
Robótica e Sistemas SensoriaisRobótica e Sistemas Sensoriais
Robótica e Sistemas Sensoriais
 
Software livre: modelo de negócio
Software livre: modelo de negócioSoftware livre: modelo de negócio
Software livre: modelo de negócio
 

Modelos de busca e tendências