O algoritmo PageRank do Google

O algoritmo PageRank do Google
Prof. Miguel Frasson
Depto. de Matem´atica Aplicada e Estat´ıstica – SME
ICMC-USP
27 de novembro de 2015

História
Larry Page e Sergey Brin bolaram o algoritmo quando
estudavam na Universidade de Stanford (Califórnia) em 1998.
Page é o principal idealizador → PageRank em sua
homenagem.
Page e Brin iniciam o projeto do Google em 1994 e o fundam
em 1998.
A Universidade patenteou o algoritmo, mas a empresa
comprou o direito de uso.

Ideia
A importância de um site é medida pela quantidade e
qualidade das liga¸cões de outras páginas a uma página
determinada.
Quanto mais páginas ligam-se a uma página A, maior sua
pontua¸cão.
Liga¸cões de páginas com maior rank têm maior peso.
Liga¸cões de uma página a si mesma e repetidas liga¸cões para
outras páginas são ignoradas.
Critério imparcial, não leva em conta o que uma página
parece pensar sobre sua importância.

Ideia: internauta imparcial
Um interneuta imparcial (robô) inicia uma página.
Segue uma liga¸cão para uma outra página, com igual
probabilidade de escolha.
Da´ı, segue novamente uma liga¸cão para uma outra página,
com igual probabilidade de escolha.
Repete esse processo um bom número de vezes.
Páginas mais importantes serão visitadas diversas vezes.
Calcula a média de tempo que gastou na página: esta será
sua importância, seu score PageRank.

Ferramentas matemáticas
Grafos orientados.
Cadeias de Markov de probabilidades
→ matriz M cuja soma em cada coluna é igual a 1.
Estado estacionário → autovetor de M com autovalor de
maior magnitude.
Cálculo do autovetor por convergência.

Rede em forma de grafo orientado
Cada página é um nó do grafo.
Cada página externa ligada denota uma aresta no gráfo.
Exemplo: rede com 5 páginas
A
B
C
D
E

Probabilidades
Cadeias de Markov
T → universo das páginas
(no exemplo: T = {A, B, C, D, E}).
Definimos N < ∞ como o número de elementos em T.
Xn, n = 0, 1, 2, . . . são variáveis aleatórias que tomam valores
em T.
A fam´ılia {Xn, n = 0, 1, 2, . . . } chama-se um processo aleatório.
{Xn} é uma cadeia de Markov se a probabilidade P(Xn = i),
i ∈ T, depender somente do valor do processo no passo
anterior, Xn−1, e não em qualquer dos passos anteriores Xn−2,
Xn−3, . . . .

Exemplo: Probabilidades para X1 e X2 dado que X0 = C
in´ıcio passo 1 passo 2
p(E) = 0
p(D) = 0
p(B) = 0
p(A) = 0
p(C) = 0
p(D) = 0
p(E) = 0
p(C) = 1
p(A) = 1
3
p(B) = 1
3
p(E) = 1
3
p(A) = 1
6
p(B) = 1
3 + 1
9 = 4
9
p(C) = 1
6 + 1
9 = 5
18
p(D) = 1
9
1
3
× 1
1
3
× 1
2
1
3
× 1
3
1
3

Agora com matrizes
Matriz de Markov
P = (pij ), pij = P(Xn = i|Xn−1 = j).
pij ∈ [0, 1], ∀i, j ∈ #T
∀j ∈ T,
i∈T
pij = 1.
A matriz de Markov de um processo de Markov chama-se
matriz de transi¸c˜ao.
A
B
C
D
E
P =








0 1
2
1
3 1 0
1 0 1
3 0 1
3
0 1
2 0 0 1
3
0 0 0 0 1
3
0 0 1
3 0 0









In´ıcio: v0 =






0
0
1
0
0






Passo 1: v1 = Pv0 =








0 1
2
1
3 1 0
1 0 1
3 0 1
3
0 1
2 0 0 1
3
0 0 0 0 1
3
0 0 1
3 0 0














0
0
1
0
0






=








1
3
1
3
0
0
1
3









Passo 2: v2 = Pv1 = P2v0








1
2
1
6
1
6 0 11
18
0 2
3
4
9 1 1
9
1
2 0 5
18 0 1
6
0 0 1
9 0 0
0 1
6 0 0 1
9














0
0
1
0
0






=








1
6
4
9
5
18
1
9
0








...
Passo n: 3a coluna de Pn.

Pn
é também uma matriz de Markov
Como vimos, Pn também tem entradas entre 0 e 1 e a soma
das colunas é 1.

Estado estacionário
Atribua um estado aleatório para o passo inicial.
Conforme o internauta imparcial (robô) percorre as páginas
inúmeras vezes, a porcentagem de tempo em que passa em
cada página tende a convergir a um vetor v∞.
Pnv0 → v∞, n → ∞
Aplicando P em cada membro do limite:
Pv∞ = P lim
n→∞
Pn
v0 = lim
n→∞
Pn+1
= v∞
Logo, o estado estacionário é autovetor de P associado a 1.

De fato, 1 é autovalor
Os polinômios caracter´ısticos de P e PT são o mesmo
pP(λ) = det(P−λI) = det(P−λI)T
= det(PT
−λI) = PPT (λ).
Logo, todo autovalor de P é também autovalor de PT .
Mas 1 é autovalor de PT com autovetor (1, 1, . . . , 1)T :
a i-ésima entrada de PT (1, 1, . . . , 1)T é a soma das entradas
da i-ésima linha de PT , que é a soma da i-ésima coluna de P,
que é 1. Logo
PT
(1, 1, . . . , 1)T
= (1, 1, . . . , 1)T
.

Os autovalores de P têm módulo 1
Suponha que algum autovalor λ de P satisfa¸ca |λ| > 1.
Seja v autovetor.
Anv = λnv.
Como λn cresce exponencialmente, para n grande, An teria
que ter entradas com módulo maior que 1.
Absurdo. Portanto todo autovalor λ de P satisfaz
|λ| 1.

Hipóteses (razoáveis) para as redes
Hipóteses
Suponha que o único autovalor com |λ| = 1 seja 1.
Suponha que dim V (1) = 1.

Aproximando v∞
Seja B = {v1, . . . , vN} uma base de RN, N = #T, tal que
[P]B esteja na forma canônica de Jordan.
Cada bloco de Jordan J(λi ; r) é da forma
J(λ; r) = λI + N
onde I e N têm dimensões r × r, Nr = 0.
Se vk, vk+1, . . . vk+r−1 são os vetores da base B associados ao
bloco de Jordan, então, para n > r
[P]Bvk+j = λvk+j + vk+j−1[P]2
Bvk+j = λ2
vk+j + λvk+j−1 + vk+j−2
...
[P]n
Bvk+j = λn−r
(λr
vk+j + · · · + vk+m)

Aproximando v∞
Assim, se |λ| < 1,
lim
n→∞
[P]n
Bvk+j = 0.
Seja v∞ o autovetor de λ = 1 com todas as entradas n˜ao
negativas e cuja soma das entradas ´e 1.

Aproximando v∞
Seja C a base canônica.
Seja v0 um vetor qualquer. Então
[v0]B = α1v∞ + α2v2 + · · · + αNvN.
Se α1 = 0, (probabilidade de α1 = 0 é ´ınfima)
lim
n→∞
P[vn]C = lim
n→∞
Pn
[v0]C
= lim
n→∞
(MB
C [P]BMC
B)n
[v0]C
= lim
n→∞
MB
C [P]n
BMC
B[v0]C
= MB
C lim
n→∞
[P]n
B[v0]B
= MB
C α1[v∞]B = α1[v∞]C
que também é autovetor, mas com soma das entradas α1.
Dividindo por esta soma, encontramos v∞ !!

Exemplo: rede anterior com v0 = (0, 0, 1, 0, 0)T
Usando software para os cálculos
P20
v0 =








10873758553
37192366944
21798409087
55788550416
12233707681
55788550416
2724497393
111577100832
25207081
344373768








≈






0.29236532779353
0.39073266690844
0.21928706857906
0.02441806941284
0.07319686730610






Este vetor já é bem próximo do limite.
Os números nas linhas são a pontua¸cão PageRank das
páginas.
Assim, o internauta imparcial passa
39% do tempo na página B,
29% do tempo na página A,
22% do tempo na página C,
7% do tempo na página E,
2% do tempo na página D.

Resultados da busca
A página do Google retorna as páginas relacionadas à busca,
ordenadas por ordem decrescente de pontua¸cão PageRank.
Suponha que o termo buscado “álgebra linear” apareca nas
páginas A, B e C:
Google
• B
• A
• C
Suponha que o termo buscado “álgebra linear” apareca nas
páginas C, D e E:
Google
• C
• E
• D

Comentários finais
Pode ocorrer que o robô fique preso numa sub-rede, por não
haver links para fora.
Para evitar isso, Page propôs reserval algo em torno de 15%
de chance de pular para uma outra página qualquer.
Assim, cada página terá pelo menos 0.15
N de pontua¸cão, onde
N é o número de páginas indexadas na internet.

O algoritmo PageRank do Google

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a O algoritmo PageRank do Google

Semelhante a O algoritmo PageRank do Google (20)

Mais de Alexandre Grossi

Mais de Alexandre Grossi (20)

O algoritmo PageRank do Google