SlideShare uma empresa Scribd logo
Aula 3:

Sergio Langer
O consumidor e as buscas
Ferramentas de busca têm alta penetração
  entre os usuários

                                                     A tiv id ad es d esen v o lv id as n a in tern et¹


                                                                                                      8 4 ,0 %
                     B us ca d o re s


                                                                                      4 9 ,6 %
                            E -m a ils


                                                                           2 4 ,5 %
         S a la s d e b a te -p a p o

       C o m p a rtilha m e nto d e
                                                          1 6 ,6 %
                a rq uivo s

                                               1 1 ,9 %
  C ria um a p á g ina na w e b

 L ig a ç õ e s te le fô nic a s p e la
                                          1 1 ,9 %
               inte rne t


                                                                                                                                         Alcance
                                                                                                                             Site²
                                                                                                                                           (%)

                                                                                                                 Ferramentas de Busca,
                                                                                                                                         98,28
                                                                                                                 Portais e Comunidades
                                                                                                                 Portais Horizontais e
 No Brasil, 87% dos usuários domiciliares utilizaram                                                                                     96,46
                                                                                                                      Comunidades
 pelo menos uma vez algum mecanismo de busca                                                                     Ferramentas de Busca    86,96
                                                                                                                 Comunidades             86,24
                                                                                                                 Portais Verticais e
                                                                                                                                         46,03
                                                                                                                      Comunidades
Fontes: (1) CGI, 2006; (2) Ibope Net//Ratings, 2007.
Quase 1 em cada 4 usuários
    utilizam os buscadores mais de 1 vez por dia

            Freqüência de utilização dos buscadores
            por adultos americanos (% de respostas)


         25%
                                                                                               87%    dos usuários encontram a
                                                                                               informação que procuram mais
         20%                                                                                   frequentemente quando utilizam os
                                                                                               buscadores
         15%

                                                                                               44% dos usuários indicaram que
         10%                                                                                   os buscadores são a fonte segura,
                                                                                               com informações críticas
                                                                                               absolutamente necessárias
          5%



                                                                                               33 é o número médio de buscas
          0%
                     +1          1     3-5 dias   1-2 dias      1x       Pouco     Não sei /
                                                                                               por mês
                  vez ao dia     dia   semana     semana     algumas   freqüente     Sem
                                                             semanas               resposta

                                                                                               48% dos usuários afirmam utilizar
                                                                                               2 ou 3 sistemas de busca
                                                                                               regularmente

Fonte: iMedia Connection, 2006
Buscadores são fontes confiáveis de informações


        Como você encontrou o site que                                                                  Como você encontrou o site da
       influenciou a sua última compra?¹                                                                empresa que procurava?²
                                                                                                            83%
                                                              40%               Buscadores

                                                                                                            43%
                                                              29%              Boca-a-Boca

                                                                         Mídia Gráfica On-line              16%
                                                              26%
 Buscadores juntos
 com Mídia Gráfica                                                                     TV                   34%
                                                              13%
 representam mais de
                                                                            Digitação da URL                47%
                                                              12%
 65% sobre a
 influencia de compra                                                    Mídia Gráfica off-line             36%
                                                              10%

                                                                             Email Marketing                32%
                                                                7%

                                                                             Email de amigo                 49%
                                                              3%




Fonte: 1- DoubleClick White Paper, Janeiro 2005 (US); 2-Forrester’s Consumer Technographics® August 2004 North American Devices, Media,
& Marketing Online Study and Forrester’s Consumer Technographics® 2003 North American Retail & Media Online Study
Usuários estão cada vez menos dispostos a navegar
    pelas páginas de resultados...
                                Quantidade de resultados vistos pelos usuários nos buscadores
                                      antes de clicarem em algum (em % de respostas)

                  45%
                               2002   2004     2006
                  40%

                  35%

                  30%

                  25%

                  20%

                  15%

                  10%

                   5%

                   0%
                               Apenas alguns           Na 1ª   Nas primeiras   Nas primeiras   Mais de três
                                                      página    2 páginas        3 páginas      páginas



                      Estar posicionado na primeira página do resultado de busca
                                       é fator crítico de sucesso

Fonte: iProspect, Abril 2006
...e mais propensos a realizar buscas específicas para
   encontrar somente o que querem

                                                 Quantidade de palavras utilizadas por buscas

                       35%
                                                                                                                    2004       2006
                                                   3 0% 2 9%
                       30%                                           2 8%
                                                               27%

                       25%

                       20%      17%                                               17%
                                                                            15%
                       15%
                                        11%
                       10%                                                                       8%
                                                                                        7%
                                                                                                               4%
                           5%                                                                         3%
                                                                                                                               2%
                                                                                                                      1%
                           0%
                                1 p a la v r a        2          3            4              5             6               7




           Termos com uma palavra (mais genéricos) são importantes para o início do
           processo de busca, mas nem sempre trazem somente o que o usuário está
           precisando, por isso termos específicos vêm ganhando força

Fonte: OneStat.com, 2006
Market Share – EUA




Fonte: Compete.com / Fev 2009
Market Share – BR


                                      Buscador          porcentagem

                             Google              94,8%

                             MSN                 2,5%

                             Yahoo               0,8%




Fonte: Predicta / Fev 2009
Como funciona o buscador?
Como funciona

Ferramentas de busca baseiam-se em operações bastante complexas e
ambiciosas:


 varredura da web
 indexação de cada página
 análise e a comparação de texto em frações de segundos
Como funciona

A varredura é feita por meio de programas
chamados spiders ou crawlers, que
vasculham e indexam toda a web, site por
site, link a link.
Como funciona

Toda a internet?
Como funciona

Não, como não pode varrer tudo, vasculham os sites mais relevantes. O
ponto de partida é a própria base do buscador.
Como funciona

Em cada página, o programa varre os links presentes e segue um deles,
escolhido aleatoriamente. A operação é repetida à exaustão, de modo a
garantir um índice de sites o mais completo possível.
Como funciona

Um busca simples pode trazer milhões de resultados. Organizar estes
resultados e exibir o que há de relevante é a tarefa central para um
buscador.
Como funciona

Essa foi a grande aposta do Google: estimar a relevância de um site de
acordo com o número de vezes em que é citado por outros sites.
Como funciona

É uma medida de popularidade e confiabilidade entre pares: se um
endereço é muito citado na web, isto quer dizer que ele é relevante. E se
os sites que o citam são, por sua vez, também muito citados, a
relevância é ainda maior.
Como funciona

Esta operação matemática é o que
chamamos de PageRank. Ela estabelece
que a importância de uma página equivale à
probabilidade de ser encontrada por um
internauta surfando aleatoriamente ao longo
de um certo tempo.
Como funciona

A conta que essa operação se baseia é um dos grandes segredos do
Google. Mas em linhas gerais, sabe-se que é feita a partir da soma do
número de links existentes de um site a outro, em toda a web, ponderada
pela relevância de cada um deles.
Como funciona

A ferramenta de busca deve comparar os termos digitados pelo
internauta com seu índice de páginas. Os primeiros buscadores
consideravam acima de tudo os termos de identificação da página, não
visíveis ao leitor, ou o número de vezes em que uma certa palavra é
repetida.
Como funciona

Por estes termos serem facilmente manipuláveis, os atuais buscadores
dão atenção a centenas de outras variáveis, incluindo a formatação do
texto, tempo de resposta, a posição na página e sua presença em
páginas vizinhas do mesmo site.
e o Google?
e o Google?

 Google       MSN   Yahoo
e o Google?

O Google é basicamente um banco de dados inteligente.


Ele acumula cada página da Web nesse banco. O endereço da página, o
nome, e as palavras mais frequentes e suas respectivas frequências são
todas incluídas na “ficha” daquela página (cada página é como um livro a
ser catalogado numa biblioteca).
e o Google?

O mais importante, todas as outras páginas para as quais a página linka
também são guardadas. Quando você busca algo no Google, o software
traz todas as “fichas” cujo conteúdo tenha a ver com a sua busca.
e o Google?

Para fazer isto de forma eficiente, um dicionário global é criado
(dicionário reverso ou índice reverso), onde cada palavra que existe na
web aparece uma vez. E na “ficha” de cada palavra são colocados
códigos que se relacionam com as páginas que contém aquela palavra.
e o Google?

Uma maneira de entender isso é que cada palavra tem uma lista com os
endereços das páginas que a contêm. Quando você digita uma palavra e
clica em buscar, tudo que precisa ser feito é imprimir na tela as listas de
endereços de todas as palavras que você pediu.
e o Google?

O segredo do Google, e na verdade de qualquer buscador, está em duas
coisas: como ele faz para encontrar todas páginas e como ele decide a
ordem em que vai listar os resultados. Os nomes técnicos para estas
duas atividades são crawling e scoring.
e o Google?

Um bom buscador é bastante abrangente, e ao mesmo tempo lista as
respostas na ordem que o maior número de pessoas espera. E responde
à busca rápido.
e o Google?

O crawling do Google, assim como o da maioria dos buscadores é feito
através de programas de computador que vão seguindo todos os links de
uma página, e acumulando as informações das páginas visitadas, a
partir de uma página inicial.
e o Google?

Para cada página visitada, o Google cria uma “ficha de biblioteca”. As
palavras da página que estão no dicionário global tem suas frequências
contadas, o endereço da página é anotado na “ficha”, e o endereço de
todas as páginas para as quais a página linka são anotados.


Finalmente, o próprio dicionário global é emendado caso alguma palavra
nova seja encontrada.
e o Google?

Ao fim do processo de crawling o Google tem um gigantesco banco de
dados com informações concisas da página.
e o Google?

Uma enxugada no dicionário global é feita, para remover palavras
frequentes demais, como por exemplo preposições, e para remover
palavras infreqüentes demais, como um erro de tipografia.
e o Google?

Por isso, se seu nome for muito incomum (muito mesmo), você não será
indexado pelo Google. Se seu nome for muito incomum, mas você
cometer um ato que te põe nas capas de vários jornais, a frequência do
seu nome aumenta, e o Google vai te indexar.
e o Google?

O próximo passo é então como o scoring do Google é feito. Uma
maneira natural de ordenar as páginas, quando uma busca é feita, é
simplesmente pela frequência com que a palavra buscada aparece na
página.
e o Google?

Por exemplo, se você busca por “dança”, uma página que contenha a
palavra mil vezes, é provavelmente mais importante do que uma que
contem a palavra somente dez vezes.


Porém um esquema simplista como este pode ser facilmente burlado,
com indivíduos criando páginas que tenham milhões de vezes a palavra
“dança”, mesmo sem ser relacionado ao assunto ou para vender um livro
específico de dança.
e o Google?

Cada buscador tem então a sua receita mágica para contrabalançar este
tipo de problema. O Google usa uma idéia de pontos por autoridade
(relevance scoring). Talvez tenha sido a grande sacada dos seus
fundadores ao projetar seu buscador.
e o Google?

A pontuação do Google soma aos pontos tradicionais (como frequência
da palavra, importância da palavra num contexto dado por alguma
fórmula simples pré-programada, etc.), a uma pontuação dada por
reputação.
e o Google?

Como medir reputação? A idéia é simples: se páginas com muita
reputação apontam para você, então você tem muita reputação. É uma
propriedade hereditária.


Matematicamente isto é feito usando teoria dos grafos, a mesma que
você usa para colorir mapas-múndi com o mínimo de cores possíveis.
e o Google?

Mas como medir a reputação de uma página na Web, se você não sabe
a reputação de ninguém a priori?
e o Google?

O jeito mais comum de se fazer isso são com os robôs. Ele começa de
uma página inicial e escolhe aleatoriamente um link a ser clicado.
Ele segue para a página clicada e repete o processo. O processo é feito
indefinidamente.


Após muito longo tempo (provavelmente após centenas de bilhões de
cliques) você pode calcular a reputação de cada página com uma
fórmula simples: conte o número de vezes que a página foi visitada pelo
monkey browser.
e o Google?

Para normalizar a pontuação, o melhor é calcular a fração do total de
páginas visitadas que cada página aparece.


Suponha que a web tenha só 3 páginas: A, B e C. Suponha que o robô
visitou cem páginas usando o método aleatório e visitou A trinta vezes.
Então a reputação de A é simplesmente 30/100 (ou seja, 0.3 de 1.0).
e o Google?

Uma interpretação interessante do seu score de relevância normalizado
desta forma é que ele é simplesmente a chance de um robô ir parar na
sua página. Se a probabilidade é alta, então sua página é importante.
e o Google?

Se o Google realmente precisasse lançar robôs aleatórios para calcular a
pontuação, provavelmente iriam levar anos para se concluir o cálculo,
afinal precisariam fazer bilhões de visitas para se ter um número
confiável.


Felizmente, existe uma maneira eficiente de calcular estas
probabilidades sem fazer visita alguma. Você só precisa saber a
estrutura de linkes do conjunto de páginas (que página liga com quem).
e o Google?

O algoritmo é bastante antigo, tem mais de 100 anos. E uma das suas
aplicações anteriores foi resolver problemas como calcular as
frequências de vibração na corda do seu violão ou a chance de se
ganhar em pôquer.
e o Google?

O que destacou o Google das outros mecanismo de busca foi a idéia de
fazer um crawling mais completo que todos, numa época em que
ninguém se dispunha a fazer isso, e a receita da reputação entrando
como parte da pontuação da página.
O mercado de buscas

Mais conteúdo relacionado

Mais de gestao em hipermídia Pós-graduação

As métricas da web
As métricas da webAs métricas da web
Keynote Webwriting 1
Keynote Webwriting 1Keynote Webwriting 1
Keynote Blogs Corporativos
Keynote Blogs CorporativosKeynote Blogs Corporativos
Keynote Blogs Corporativos
gestao em hipermídia Pós-graduação
 
Keynote Smo Fox
Keynote Smo FoxKeynote Smo Fox
Keynote Midia Social
Keynote Midia SocialKeynote Midia Social
Keynote Ugc Unicid
Keynote Ugc UnicidKeynote Ugc Unicid
Keynote Web 2.0
Keynote Web 2.0Keynote Web 2.0
Cultura Digital Unicid
Cultura Digital UnicidCultura Digital Unicid
Gp Aula 9
Gp Aula 9Gp Aula 9
Gp Aula 8
Gp Aula 8Gp Aula 8
Gp 7a Aula 25jun2008
Gp  7a Aula 25jun2008Gp  7a Aula 25jun2008
Gp Aula 7
Gp Aula 7Gp Aula 7
Buscape Apres 23jun2008
Buscape Apres 23jun2008Buscape Apres 23jun2008
Metodologia Tcc Digelza 9 6 08
Metodologia Tcc Digelza 9 6 08Metodologia Tcc Digelza 9 6 08
Metodologia Tcc Digelza 9 6 08
gestao em hipermídia Pós-graduação
 
Gestão de Projetos - Aula 4
Gestão de Projetos -  Aula 4Gestão de Projetos -  Aula 4
Gestão de Projetos - Aula 4
gestao em hipermídia Pós-graduação
 
Gp Aula 3
Gp Aula 3Gp Aula 3
Pesq. CientíFica Plano Geral
Pesq. CientíFica   Plano GeralPesq. CientíFica   Plano Geral
Pesq. CientíFica Plano Geral
gestao em hipermídia Pós-graduação
 
Conhecim. CientíFico Digelza
Conhecim. CientíFico DigelzaConhecim. CientíFico Digelza
Conhecim. CientíFico Digelza
gestao em hipermídia Pós-graduação
 
Metodologia Programa Digelza
Metodologia Programa DigelzaMetodologia Programa Digelza
Metodologia Programa Digelza
gestao em hipermídia Pós-graduação
 
Gp Aula 1
Gp Aula 1Gp Aula 1

Mais de gestao em hipermídia Pós-graduação (20)

As métricas da web
As métricas da webAs métricas da web
As métricas da web
 
Keynote Webwriting 1
Keynote Webwriting 1Keynote Webwriting 1
Keynote Webwriting 1
 
Keynote Blogs Corporativos
Keynote Blogs CorporativosKeynote Blogs Corporativos
Keynote Blogs Corporativos
 
Keynote Smo Fox
Keynote Smo FoxKeynote Smo Fox
Keynote Smo Fox
 
Keynote Midia Social
Keynote Midia SocialKeynote Midia Social
Keynote Midia Social
 
Keynote Ugc Unicid
Keynote Ugc UnicidKeynote Ugc Unicid
Keynote Ugc Unicid
 
Keynote Web 2.0
Keynote Web 2.0Keynote Web 2.0
Keynote Web 2.0
 
Cultura Digital Unicid
Cultura Digital UnicidCultura Digital Unicid
Cultura Digital Unicid
 
Gp Aula 9
Gp Aula 9Gp Aula 9
Gp Aula 9
 
Gp Aula 8
Gp Aula 8Gp Aula 8
Gp Aula 8
 
Gp 7a Aula 25jun2008
Gp  7a Aula 25jun2008Gp  7a Aula 25jun2008
Gp 7a Aula 25jun2008
 
Gp Aula 7
Gp Aula 7Gp Aula 7
Gp Aula 7
 
Buscape Apres 23jun2008
Buscape Apres 23jun2008Buscape Apres 23jun2008
Buscape Apres 23jun2008
 
Metodologia Tcc Digelza 9 6 08
Metodologia Tcc Digelza 9 6 08Metodologia Tcc Digelza 9 6 08
Metodologia Tcc Digelza 9 6 08
 
Gestão de Projetos - Aula 4
Gestão de Projetos -  Aula 4Gestão de Projetos -  Aula 4
Gestão de Projetos - Aula 4
 
Gp Aula 3
Gp Aula 3Gp Aula 3
Gp Aula 3
 
Pesq. CientíFica Plano Geral
Pesq. CientíFica   Plano GeralPesq. CientíFica   Plano Geral
Pesq. CientíFica Plano Geral
 
Conhecim. CientíFico Digelza
Conhecim. CientíFico DigelzaConhecim. CientíFico Digelza
Conhecim. CientíFico Digelza
 
Metodologia Programa Digelza
Metodologia Programa DigelzaMetodologia Programa Digelza
Metodologia Programa Digelza
 
Gp Aula 1
Gp Aula 1Gp Aula 1
Gp Aula 1
 

O mercado de buscas

  • 2. O consumidor e as buscas
  • 3. Ferramentas de busca têm alta penetração entre os usuários A tiv id ad es d esen v o lv id as n a in tern et¹ 8 4 ,0 % B us ca d o re s 4 9 ,6 % E -m a ils 2 4 ,5 % S a la s d e b a te -p a p o C o m p a rtilha m e nto d e 1 6 ,6 % a rq uivo s 1 1 ,9 % C ria um a p á g ina na w e b L ig a ç õ e s te le fô nic a s p e la 1 1 ,9 % inte rne t Alcance Site² (%) Ferramentas de Busca, 98,28 Portais e Comunidades Portais Horizontais e No Brasil, 87% dos usuários domiciliares utilizaram 96,46 Comunidades pelo menos uma vez algum mecanismo de busca Ferramentas de Busca 86,96 Comunidades 86,24 Portais Verticais e 46,03 Comunidades Fontes: (1) CGI, 2006; (2) Ibope Net//Ratings, 2007.
  • 4. Quase 1 em cada 4 usuários utilizam os buscadores mais de 1 vez por dia Freqüência de utilização dos buscadores por adultos americanos (% de respostas) 25% 87% dos usuários encontram a informação que procuram mais 20% frequentemente quando utilizam os buscadores 15% 44% dos usuários indicaram que 10% os buscadores são a fonte segura, com informações críticas absolutamente necessárias 5% 33 é o número médio de buscas 0% +1 1 3-5 dias 1-2 dias 1x Pouco Não sei / por mês vez ao dia dia semana semana algumas freqüente Sem semanas resposta 48% dos usuários afirmam utilizar 2 ou 3 sistemas de busca regularmente Fonte: iMedia Connection, 2006
  • 5. Buscadores são fontes confiáveis de informações Como você encontrou o site que Como você encontrou o site da influenciou a sua última compra?¹ empresa que procurava?² 83% 40% Buscadores 43% 29% Boca-a-Boca Mídia Gráfica On-line 16% 26% Buscadores juntos com Mídia Gráfica TV 34% 13% representam mais de Digitação da URL 47% 12% 65% sobre a influencia de compra Mídia Gráfica off-line 36% 10% Email Marketing 32% 7% Email de amigo 49% 3% Fonte: 1- DoubleClick White Paper, Janeiro 2005 (US); 2-Forrester’s Consumer Technographics® August 2004 North American Devices, Media, & Marketing Online Study and Forrester’s Consumer Technographics® 2003 North American Retail & Media Online Study
  • 6. Usuários estão cada vez menos dispostos a navegar pelas páginas de resultados... Quantidade de resultados vistos pelos usuários nos buscadores antes de clicarem em algum (em % de respostas) 45% 2002 2004 2006 40% 35% 30% 25% 20% 15% 10% 5% 0% Apenas alguns Na 1ª Nas primeiras Nas primeiras Mais de três página 2 páginas 3 páginas páginas Estar posicionado na primeira página do resultado de busca é fator crítico de sucesso Fonte: iProspect, Abril 2006
  • 7. ...e mais propensos a realizar buscas específicas para encontrar somente o que querem Quantidade de palavras utilizadas por buscas 35% 2004 2006 3 0% 2 9% 30% 2 8% 27% 25% 20% 17% 17% 15% 15% 11% 10% 8% 7% 4% 5% 3% 2% 1% 0% 1 p a la v r a 2 3 4 5 6 7 Termos com uma palavra (mais genéricos) são importantes para o início do processo de busca, mas nem sempre trazem somente o que o usuário está precisando, por isso termos específicos vêm ganhando força Fonte: OneStat.com, 2006
  • 8. Market Share – EUA Fonte: Compete.com / Fev 2009
  • 9. Market Share – BR Buscador porcentagem Google 94,8% MSN 2,5% Yahoo 0,8% Fonte: Predicta / Fev 2009
  • 10. Como funciona o buscador?
  • 11. Como funciona Ferramentas de busca baseiam-se em operações bastante complexas e ambiciosas: varredura da web indexação de cada página análise e a comparação de texto em frações de segundos
  • 12. Como funciona A varredura é feita por meio de programas chamados spiders ou crawlers, que vasculham e indexam toda a web, site por site, link a link.
  • 13. Como funciona Toda a internet?
  • 14. Como funciona Não, como não pode varrer tudo, vasculham os sites mais relevantes. O ponto de partida é a própria base do buscador.
  • 15. Como funciona Em cada página, o programa varre os links presentes e segue um deles, escolhido aleatoriamente. A operação é repetida à exaustão, de modo a garantir um índice de sites o mais completo possível.
  • 16. Como funciona Um busca simples pode trazer milhões de resultados. Organizar estes resultados e exibir o que há de relevante é a tarefa central para um buscador.
  • 17. Como funciona Essa foi a grande aposta do Google: estimar a relevância de um site de acordo com o número de vezes em que é citado por outros sites.
  • 18. Como funciona É uma medida de popularidade e confiabilidade entre pares: se um endereço é muito citado na web, isto quer dizer que ele é relevante. E se os sites que o citam são, por sua vez, também muito citados, a relevância é ainda maior.
  • 19. Como funciona Esta operação matemática é o que chamamos de PageRank. Ela estabelece que a importância de uma página equivale à probabilidade de ser encontrada por um internauta surfando aleatoriamente ao longo de um certo tempo.
  • 20. Como funciona A conta que essa operação se baseia é um dos grandes segredos do Google. Mas em linhas gerais, sabe-se que é feita a partir da soma do número de links existentes de um site a outro, em toda a web, ponderada pela relevância de cada um deles.
  • 21. Como funciona A ferramenta de busca deve comparar os termos digitados pelo internauta com seu índice de páginas. Os primeiros buscadores consideravam acima de tudo os termos de identificação da página, não visíveis ao leitor, ou o número de vezes em que uma certa palavra é repetida.
  • 22. Como funciona Por estes termos serem facilmente manipuláveis, os atuais buscadores dão atenção a centenas de outras variáveis, incluindo a formatação do texto, tempo de resposta, a posição na página e sua presença em páginas vizinhas do mesmo site.
  • 24. e o Google? Google MSN Yahoo
  • 25. e o Google? O Google é basicamente um banco de dados inteligente. Ele acumula cada página da Web nesse banco. O endereço da página, o nome, e as palavras mais frequentes e suas respectivas frequências são todas incluídas na “ficha” daquela página (cada página é como um livro a ser catalogado numa biblioteca).
  • 26. e o Google? O mais importante, todas as outras páginas para as quais a página linka também são guardadas. Quando você busca algo no Google, o software traz todas as “fichas” cujo conteúdo tenha a ver com a sua busca.
  • 27. e o Google? Para fazer isto de forma eficiente, um dicionário global é criado (dicionário reverso ou índice reverso), onde cada palavra que existe na web aparece uma vez. E na “ficha” de cada palavra são colocados códigos que se relacionam com as páginas que contém aquela palavra.
  • 28. e o Google? Uma maneira de entender isso é que cada palavra tem uma lista com os endereços das páginas que a contêm. Quando você digita uma palavra e clica em buscar, tudo que precisa ser feito é imprimir na tela as listas de endereços de todas as palavras que você pediu.
  • 29. e o Google? O segredo do Google, e na verdade de qualquer buscador, está em duas coisas: como ele faz para encontrar todas páginas e como ele decide a ordem em que vai listar os resultados. Os nomes técnicos para estas duas atividades são crawling e scoring.
  • 30. e o Google? Um bom buscador é bastante abrangente, e ao mesmo tempo lista as respostas na ordem que o maior número de pessoas espera. E responde à busca rápido.
  • 31. e o Google? O crawling do Google, assim como o da maioria dos buscadores é feito através de programas de computador que vão seguindo todos os links de uma página, e acumulando as informações das páginas visitadas, a partir de uma página inicial.
  • 32. e o Google? Para cada página visitada, o Google cria uma “ficha de biblioteca”. As palavras da página que estão no dicionário global tem suas frequências contadas, o endereço da página é anotado na “ficha”, e o endereço de todas as páginas para as quais a página linka são anotados. Finalmente, o próprio dicionário global é emendado caso alguma palavra nova seja encontrada.
  • 33. e o Google? Ao fim do processo de crawling o Google tem um gigantesco banco de dados com informações concisas da página.
  • 34. e o Google? Uma enxugada no dicionário global é feita, para remover palavras frequentes demais, como por exemplo preposições, e para remover palavras infreqüentes demais, como um erro de tipografia.
  • 35. e o Google? Por isso, se seu nome for muito incomum (muito mesmo), você não será indexado pelo Google. Se seu nome for muito incomum, mas você cometer um ato que te põe nas capas de vários jornais, a frequência do seu nome aumenta, e o Google vai te indexar.
  • 36. e o Google? O próximo passo é então como o scoring do Google é feito. Uma maneira natural de ordenar as páginas, quando uma busca é feita, é simplesmente pela frequência com que a palavra buscada aparece na página.
  • 37. e o Google? Por exemplo, se você busca por “dança”, uma página que contenha a palavra mil vezes, é provavelmente mais importante do que uma que contem a palavra somente dez vezes. Porém um esquema simplista como este pode ser facilmente burlado, com indivíduos criando páginas que tenham milhões de vezes a palavra “dança”, mesmo sem ser relacionado ao assunto ou para vender um livro específico de dança.
  • 38. e o Google? Cada buscador tem então a sua receita mágica para contrabalançar este tipo de problema. O Google usa uma idéia de pontos por autoridade (relevance scoring). Talvez tenha sido a grande sacada dos seus fundadores ao projetar seu buscador.
  • 39. e o Google? A pontuação do Google soma aos pontos tradicionais (como frequência da palavra, importância da palavra num contexto dado por alguma fórmula simples pré-programada, etc.), a uma pontuação dada por reputação.
  • 40. e o Google? Como medir reputação? A idéia é simples: se páginas com muita reputação apontam para você, então você tem muita reputação. É uma propriedade hereditária. Matematicamente isto é feito usando teoria dos grafos, a mesma que você usa para colorir mapas-múndi com o mínimo de cores possíveis.
  • 41. e o Google? Mas como medir a reputação de uma página na Web, se você não sabe a reputação de ninguém a priori?
  • 42. e o Google? O jeito mais comum de se fazer isso são com os robôs. Ele começa de uma página inicial e escolhe aleatoriamente um link a ser clicado. Ele segue para a página clicada e repete o processo. O processo é feito indefinidamente. Após muito longo tempo (provavelmente após centenas de bilhões de cliques) você pode calcular a reputação de cada página com uma fórmula simples: conte o número de vezes que a página foi visitada pelo monkey browser.
  • 43. e o Google? Para normalizar a pontuação, o melhor é calcular a fração do total de páginas visitadas que cada página aparece. Suponha que a web tenha só 3 páginas: A, B e C. Suponha que o robô visitou cem páginas usando o método aleatório e visitou A trinta vezes. Então a reputação de A é simplesmente 30/100 (ou seja, 0.3 de 1.0).
  • 44. e o Google? Uma interpretação interessante do seu score de relevância normalizado desta forma é que ele é simplesmente a chance de um robô ir parar na sua página. Se a probabilidade é alta, então sua página é importante.
  • 45. e o Google? Se o Google realmente precisasse lançar robôs aleatórios para calcular a pontuação, provavelmente iriam levar anos para se concluir o cálculo, afinal precisariam fazer bilhões de visitas para se ter um número confiável. Felizmente, existe uma maneira eficiente de calcular estas probabilidades sem fazer visita alguma. Você só precisa saber a estrutura de linkes do conjunto de páginas (que página liga com quem).
  • 46. e o Google? O algoritmo é bastante antigo, tem mais de 100 anos. E uma das suas aplicações anteriores foi resolver problemas como calcular as frequências de vibração na corda do seu violão ou a chance de se ganhar em pôquer.
  • 47. e o Google? O que destacou o Google das outros mecanismo de busca foi a idéia de fazer um crawling mais completo que todos, numa época em que ninguém se dispunha a fazer isso, e a receita da reputação entrando como parte da pontuação da página.