Sumarização Estatística 2D

SUMARIZAÇÃO ESTATÍSTICA (2D)
Alexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad

AGENDA
• Scatter Plot
• Regressão Linear
• Correlação e Coeficientes de Determinação
• Correlação e Regressão: Estudos de Caso

REGRESSÃO LINEAR
• Francis Galton
(1822-1911), obcecado
pela idéia de que o
talento era uma
característica herdada,
acaba descobrindo que a
altura de um milhões
remete (regressa) à
média da altura dos pais
(1855).

PÉTALAS DA IRIS
Como expressar de forma linear a largura de
uma pétala em relação ao seu comprimento? PeWi = a*PeLe + b

PÉTALAS DA IRIS
PeWi = a*PeLe + b
!
• O que significam a e b ?
!
• a = O quanto PeWi muda
quando PeLe aumenta ou
diminui em 1. (inclinação)
!
• b = Valor esperado para
PeWi quando PeLe é igual
a 0. (interseção)
• Requer um pouco de
imaginação! :-)
!

REGRESSÃO LINEAR
Como expressão y = ax + b com
erro mínimo?
!
Seja i = 1, 2, …, N uma entidade.
Temos a equação yi = axi + b + ei
onde ei é o erro residual.
!
Problema: encontrar a e b com erro
residual ei mínimo.

REGRESSÃO LINEAR
• Problema: Encontrar a e b que minimizem o quadrado do erro residual
(critério dos mínimos quadrados)
NΣ
푵
풊=ퟏ(풚풊−풂풙풊−풃)ퟐ
• 푳(풂,풃) =Σ
• L(a,b) é uma parábola em a,b:
• Portanto, a condição de otimalidade de primeira ordem do cálculo deve valer
NΣ
• 흏푳/흏풂 =ퟐΣ
푵
풊=ퟏ(풚풊−풂풙풊−풃)(−풙풊) = ퟎ (*)
• 흏푳/흏b =ퟐΣ
푵
풊=ퟏ(풚풊−풂풙풊−풃)(-1) = ퟎ (**)
∂L
∂a
= 2 (yi − axi − b)(−xi ) = 0
i=1
(*)
∂L
∂b
NΣ
= 2 (yi − axi − b)(−1) = 0
i=1
(**)
L(a, b) = (yi − axi − b)
i=1
2

REGRESSÃO LINEAR
∂L
∂a
NΣ
= 2 (yi − axi − b)(−xi ) = 0
• ퟐΣ푵
• ퟐΣ푵
i=1
NΣ
풊=ퟏ(풚풊−풂풙풊−풃)(-1) = ퟎ (**)
• Dividindo (**) por -2 e transferindo b para a direita
• Σ푵
NΣ
NΣ
풊=ퟏ풚풊 − 풂Σ푵
풊=ퟏ풙풊 = 푵풃,
• Portanto
• b = ym - axm,
(*)
∂L
∂b
= 2 (yi − axi − b)(−1) = 0
i=1
(**)
yi − a xi
i=1
i=1
= Nb
b = y − ax

REGRESSÃO LINEAR
• Agora temos
• ퟐΣ푵
NΣ
• b = ym - axm (**)
• Precisamos agora encontrar a em (*)
• Dividindo por -2 e substituindo o b, temos
NΣ
• Σ푵
풊=ퟏ(풚풊−풂풙풊−풚m+풂풙m)(풙풊)=ퟎ
∂L
∂a
= 2 (yi − axi − b)(−xi ) = 0
i=1
(*)
b = y − ax (**)
(yi − axi − y + ax )(xi ) = 0
i=1

REGRESSÃO LINEAR
NΣ
• Σ푵
풊=ퟏ(풚풊−풂풙풊−풚m+풂풙m)(풙풊)=ퟎ
• Separando a na esquerda e o resto na direita, temos:
NΣ a =
• aΣ푵
NΣ
풊=ퟏ(xi - xm)xi = Σ푵
풊=ퟏ(yi - ym)xi
• Portanto
• a = (Σ푵
NΣ
풊=ퟏ(yi - ym)xi) / (Σ푵
풊=ퟏ(xi - xm)xi)
(yi − axi − y + ax )(xi ) = 0
i=1
a (xi − x )xi = (yi − y)xi
i=1
i=1
(yi − y)xi
i=1
(xi − x )xi
NΣ
i=1

REGRESSÃO LINEAR
!
NΣ
NΣ
• a = (Σ푵
풊=ퟏ(yi - ym)xi) / (Σ푵
풊=ퟏ(xi - xm)xi) (*)
• b = ym - axm (**)
• Note que Σ푵
NΣ
NΣ
풊=ퟏ(xi - xm) = Σ푵
풊=ퟏ(yi - ym) = 0
• Portanto
• a = (Σ푵
NΣ
풊=ퟏ(yi - ym)(xi-xm)/N) / (Σ푵
풊=ퟏ(xi - xm)(xi-xm)/N)
a =
(yi − y)xi
i=1
(xi − x )xi
i=1
(*)
b = y − ax (**)
(xi
i=1
− x ) = (yi − y) = 0
i=1
a =
(yi − y)(xi − x )
i=1
/ N
(xi − x )(xi − x ) / N
NΣ
i=1

REGRESSÃO LINEAR
NΣ
• a = (Σ푵
풊=ퟏ(yi - ym)(xi-xm)/N) / (Σ푵
풊=ퟏ(xi - xm)(xi-xm)/N) (*)
NΣ
• b = ym - axm (**)
!
• Note que o denominador de (*) é a variança de x, σ2(x)
• Vamos introduzir agora uma nova expressão denominada Coeficiente de Correlação,
• ρ= (Σ 푵
NΣ
풊 = ퟏ ( 풚 풊 − 풚m) ( 풙 풊 − 풙m) / 푵) / σ(x)σ(y)
a =
(yi − y)(xi − x )
i=1
/ N
(xi − x )(xi − x ) / N
i=1
(*)
b = y − ax (**)
ρ =
(yi − y)(xi − x )
i=1
/ N
σ (x)σ (y)

REGRESSÃO LINEAR
a =
!
!
(yi − y)(xi − x )
NΣ
i=1
/ N
(xi − x )(xi − x ) / N
NΣ
i=1
(*)
b = y − ax (**)
• Usando o Coeficiente de Correlação,
!
!
ρ =
(yi − y)(xi − x )
NΣ
i=1
• Podemos re-escrever (*) como
/ N
σ (x)σ (y)
σ (y)
σ (x)
a = ρ

REGRESSÃO LINEAR
σ (y)
σ (x)
a = ρ
• Onde
(*)
b = y − ax (**)
ρ =
(yi − y)(xi − x )
NΣ
i=1
/ N
σ (x)σ (y)

REGRESSÃO LINEAR
• Falta agora encontrar o valor mínimo para L(a,b)
• Para isso devemos substituir a e b por (*) e (**) na
expressão
• Com isso, chegaremos a
NΣ
L(a, b) = (yi − axi − b)
i=1
2
L(a, b) = Nσ 2 (y)(1−ρ 2 )

REGRESSÃO LINEAR:
FINALMENTE
σ (y)
σ (x)
a = ρ
(*)
b = y − ax (**)
• Com valor mínimo em
L(a, b) = Nσ 2 (y)(1−ρ 2 ) (***)

CORRELAÇÃO E COEFICIENTES
DE DETERMINAÇÃO
L(a, b) = Nσ 2 (y)(1−ρ 2 ) (***)
• A equação (***) nos diz que ρ2, o coeficiente de
determinação, é a proporção da variança σ2(y) que é
considerada na regressão linear de y em x.
• O coeficiente de determinação é uma medida de ajustamento a
um modelo linear e indica o quão bem a variável dependente
pode ser explicada pelos regressores presentes no modelo.

DE DETERMINAÇÃO
• O coeficiente de determinação, ρ2, varia no intervalo [0,1]
• O coeficiente de correlação, ρ, varia no intervalo [-1,1]
• O coeficiente ρ é 1 ou -1 apenas quando a equação de regressão y = ax +
b é válida para todo i = 1,2,…, N, sem erros
• O coeficiente ρ é 0 se e somente se a inclinação a = 0
• O sinal de ρ indica a direção da inclinação, portanto, x e y são positivamente
relacionados se ρ > 0 e negativamente relacionados se ρ < 0

DE DETERMINAÇÃO
• O coeficiente ρ é 0 se e somente se a inclinação a =
0, o que pode ocorrer por diferentes razões

Isto indica que o coeficiente de correlação ρ é uma
medida do grau de uma relação linear entre x e y

CORRELAÇÃO E REGRESSÃO:
PÉTALAS DA IRIS

PÉTALAS DA IRIS
• Relação entre a largura
de uma pétala de iris e
o seu comprimento
σ (y)
σ (x)
a = ρ
(*)
b = y − ax (**)

PÉTALAS DA IRIS
• ρ = 0.9629
• Mesmo tendo pontos que
não estão exatamente sobre
a reta, o coeficiente de
determinação, ρ2, vale 0.9271
• Inclinação: 0.4158
• Interseção = -0.3631
σ (y)
σ (x)
a = ρ
(*)
b = y − ax (**)

PÉTALAS DA IRIS
• Comprimento da Pétala = 0.4158 * Largura da Pétala - 0.3631
• ρ2 vale 0.9271. Extremamente alto!
• Mas a previsão do comprimento da pétala no nosso modelo ainda
apresenta imprecisão!

PÉTALAS DA IRIS
• Testar por erros na previsão
n x y y previsto erro %
23 1.4 0.1 0.22 119.0
51 4.5 1.5 1.51 0.5
86 4.3 1.3 1.42 9.6
138 5.0 1.9 1.72 9.7
142 5.7 2.5 2.01 19.7
Erro médio: 20.6%

SÉPALAS DA IRIS

SÉPALAS DA IRIS
• Coeficiente de
correlação = -0.1176!
• Isto não parece estar
certo!
• A largura da pétala
deveria crescer quando o
comprimento da pétala
cresce e não diminuir!

SÉPALAS DA IRIS
• Correlação positiva
entre indivíduos de
uma mesma espécie!
• 0.74
• 0.53
• 0.46

SÉPALAS DA IRIS
• Correlação negativa falsa devido a combinação de
de dados pertencentes a diferentes agrupamentos!
• Um tipo de manipulação de dados que, as vezes de
forma não-intencional, pode dar suporte a
afirmações do tipo:
• Existem mentiras, mentiras cabeludas e Estatística!

Sumarização Estatística 2D

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (20)

Semelhante a Sumarização Estatística 2D

Semelhante a Sumarização Estatística 2D (20)

Mais de Alexandre Duarte

Mais de Alexandre Duarte (20)

Sumarização Estatística 2D