Sumarização Estatística 2D

505 visualizações

Publicada em

Aula sobre sumarização estatística de duas variáveis

Publicada em: Dados e análise
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
505
No SlideShare
0
A partir de incorporações
0
Número de incorporações
6
Ações
Compartilhamentos
0
Downloads
20
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Sumarização Estatística 2D

  1. 1. SUMARIZAÇÃO ESTATÍSTICA (2D) Alexandre Duarte - http://alexandre.ci.ufpb.br/ensino/iad
  2. 2. AGENDA • Scatter Plot • Regressão Linear • Correlação e Coeficientes de Determinação • Correlação e Regressão: Estudos de Caso
  3. 3. SCATTERPLOT
  4. 4. SCATTERPLOT
  5. 5. REGRESSÃO LINEAR • Francis Galton (1822-1911), obcecado pela idéia de que o talento era uma característica herdada, acaba descobrindo que a altura de um milhões remete (regressa) à média da altura dos pais (1855).
  6. 6. PÉTALAS DA IRIS Como expressar de forma linear a largura de uma pétala em relação ao seu comprimento? PeWi = a*PeLe + b
  7. 7. PÉTALAS DA IRIS PeWi = a*PeLe + b ! • O que significam a e b ? ! • a = O quanto PeWi muda quando PeLe aumenta ou diminui em 1. (inclinação) ! • b = Valor esperado para PeWi quando PeLe é igual a 0. (interseção) • Requer um pouco de imaginação! :-) !
  8. 8. REGRESSÃO LINEAR Como expressão y = ax + b com erro mínimo? ! Seja i = 1, 2, …, N uma entidade. Temos a equação yi = axi + b + ei onde ei é o erro residual. ! Problema: encontrar a e b com erro residual ei mínimo.
  9. 9. REGRESSÃO LINEAR • Problema: Encontrar a e b que minimizem o quadrado do erro residual (critério dos mínimos quadrados) NΣ 푵 풊=ퟏ(풚풊−풂풙풊−풃)ퟐ • 푳(풂,풃) =Σ • L(a,b) é uma parábola em a,b: • Portanto, a condição de otimalidade de primeira ordem do cálculo deve valer NΣ • 흏푳/흏풂 =ퟐΣ 푵 풊=ퟏ(풚풊−풂풙풊−풃)(−풙풊) = ퟎ (*) • 흏푳/흏b =ퟐΣ 푵 풊=ퟏ(풚풊−풂풙풊−풃)(-1) = ퟎ (**) ∂L ∂a = 2 (yi − axi − b)(−xi ) = 0 i=1 (*) ∂L ∂b NΣ = 2 (yi − axi − b)(−1) = 0 i=1 (**) L(a, b) = (yi − axi − b) i=1 2
  10. 10. REGRESSÃO LINEAR ∂L ∂a NΣ = 2 (yi − axi − b)(−xi ) = 0 • ퟐΣ푵 풊=ퟏ(풚풊−풂풙풊−풃)(−풙풊) = ퟎ (*) • ퟐΣ푵 i=1 NΣ 풊=ퟏ(풚풊−풂풙풊−풃)(-1) = ퟎ (**) • Dividindo (**) por -2 e transferindo b para a direita • Σ푵 NΣ NΣ 풊=ퟏ풚풊 − 풂Σ푵 풊=ퟏ풙풊 = 푵풃, • Portanto • b = ym - axm, (*) ∂L ∂b = 2 (yi − axi − b)(−1) = 0 i=1 (**) yi − a xi i=1 i=1 = Nb b = y − ax
  11. 11. REGRESSÃO LINEAR • Agora temos • ퟐΣ푵 NΣ 풊=ퟏ(풚풊−풂풙풊−풃)(−풙풊) = ퟎ (*) • b = ym - axm (**) • Precisamos agora encontrar a em (*) • Dividindo por -2 e substituindo o b, temos NΣ • Σ푵 풊=ퟏ(풚풊−풂풙풊−풚m+풂풙m)(풙풊)=ퟎ ∂L ∂a = 2 (yi − axi − b)(−xi ) = 0 i=1 (*) b = y − ax (**) (yi − axi − y + ax )(xi ) = 0 i=1
  12. 12. REGRESSÃO LINEAR NΣ • Σ푵 풊=ퟏ(풚풊−풂풙풊−풚m+풂풙m)(풙풊)=ퟎ • Separando a na esquerda e o resto na direita, temos: NΣ a = • aΣ푵 NΣ 풊=ퟏ(xi - xm)xi = Σ푵 풊=ퟏ(yi - ym)xi • Portanto • a = (Σ푵 NΣ 풊=ퟏ(yi - ym)xi) / (Σ푵 풊=ퟏ(xi - xm)xi) (yi − axi − y + ax )(xi ) = 0 i=1 a (xi − x )xi = (yi − y)xi i=1 i=1 (yi − y)xi i=1 (xi − x )xi NΣ i=1
  13. 13. REGRESSÃO LINEAR ! NΣ NΣ • a = (Σ푵 풊=ퟏ(yi - ym)xi) / (Σ푵 풊=ퟏ(xi - xm)xi) (*) • b = ym - axm (**) • Note que Σ푵 NΣ NΣ 풊=ퟏ(xi - xm) = Σ푵 풊=ퟏ(yi - ym) = 0 • Portanto • a = (Σ푵 NΣ 풊=ퟏ(yi - ym)(xi-xm)/N) / (Σ푵 풊=ퟏ(xi - xm)(xi-xm)/N) a = (yi − y)xi i=1 (xi − x )xi i=1 (*) b = y − ax (**) (xi i=1 − x ) = (yi − y) = 0 i=1 a = (yi − y)(xi − x ) i=1 / N (xi − x )(xi − x ) / N NΣ i=1
  14. 14. REGRESSÃO LINEAR NΣ • a = (Σ푵 풊=ퟏ(yi - ym)(xi-xm)/N) / (Σ푵 풊=ퟏ(xi - xm)(xi-xm)/N) (*) NΣ • b = ym - axm (**) ! • Note que o denominador de (*) é a variança de x, σ2(x) • Vamos introduzir agora uma nova expressão denominada Coeficiente de Correlação, • ρ= (Σ 푵 NΣ 풊 = ퟏ ( 풚 풊 − 풚m) ( 풙 풊 − 풙m) / 푵) / σ(x)σ(y) a = (yi − y)(xi − x ) i=1 / N (xi − x )(xi − x ) / N i=1 (*) b = y − ax (**) ρ = (yi − y)(xi − x ) i=1 / N σ (x)σ (y)
  15. 15. REGRESSÃO LINEAR a = ! ! (yi − y)(xi − x ) NΣ i=1 / N (xi − x )(xi − x ) / N NΣ i=1 (*) b = y − ax (**) • Usando o Coeficiente de Correlação, ! ! ρ = (yi − y)(xi − x ) NΣ i=1 • Podemos re-escrever (*) como / N σ (x)σ (y) σ (y) σ (x) a = ρ
  16. 16. REGRESSÃO LINEAR σ (y) σ (x) a = ρ • Onde (*) b = y − ax (**) ρ = (yi − y)(xi − x ) NΣ i=1 / N σ (x)σ (y)
  17. 17. REGRESSÃO LINEAR • Falta agora encontrar o valor mínimo para L(a,b) • Para isso devemos substituir a e b por (*) e (**) na expressão • Com isso, chegaremos a NΣ L(a, b) = (yi − axi − b) i=1 2 L(a, b) = Nσ 2 (y)(1−ρ 2 )
  18. 18. REGRESSÃO LINEAR: FINALMENTE σ (y) σ (x) a = ρ (*) b = y − ax (**) • Com valor mínimo em L(a, b) = Nσ 2 (y)(1−ρ 2 ) (***)
  19. 19. E daí?
  20. 20. CORRELAÇÃO E COEFICIENTES DE DETERMINAÇÃO L(a, b) = Nσ 2 (y)(1−ρ 2 ) (***) • A equação (***) nos diz que ρ2, o coeficiente de determinação, é a proporção da variança σ2(y) que é considerada na regressão linear de y em x. • O coeficiente de determinação é uma medida de ajustamento a um modelo linear e indica o quão bem a variável dependente pode ser explicada pelos regressores presentes no modelo.
  21. 21. CORRELAÇÃO E COEFICIENTES DE DETERMINAÇÃO • O coeficiente de determinação, ρ2, varia no intervalo [0,1] • O coeficiente de correlação, ρ, varia no intervalo [-1,1] • O coeficiente ρ é 1 ou -1 apenas quando a equação de regressão y = ax + b é válida para todo i = 1,2,…, N, sem erros • O coeficiente ρ é 0 se e somente se a inclinação a = 0 • O sinal de ρ indica a direção da inclinação, portanto, x e y são positivamente relacionados se ρ > 0 e negativamente relacionados se ρ < 0
  22. 22. CORRELAÇÃO E COEFICIENTES DE DETERMINAÇÃO • O coeficiente ρ é 0 se e somente se a inclinação a = 0, o que pode ocorrer por diferentes razões
  23. 23. Isto indica que o coeficiente de correlação ρ é uma medida do grau de uma relação linear entre x e y
  24. 24. CORRELAÇÃO E REGRESSÃO: PÉTALAS DA IRIS
  25. 25. CORRELAÇÃO E REGRESSÃO: PÉTALAS DA IRIS • Relação entre a largura de uma pétala de iris e o seu comprimento σ (y) σ (x) a = ρ (*) b = y − ax (**)
  26. 26. CORRELAÇÃO E REGRESSÃO: PÉTALAS DA IRIS • ρ = 0.9629 • Mesmo tendo pontos que não estão exatamente sobre a reta, o coeficiente de determinação, ρ2, vale 0.9271 • Inclinação: 0.4158 • Interseção = -0.3631 σ (y) σ (x) a = ρ (*) b = y − ax (**)
  27. 27. CORRELAÇÃO E REGRESSÃO: PÉTALAS DA IRIS • Comprimento da Pétala = 0.4158 * Largura da Pétala - 0.3631 • ρ2 vale 0.9271. Extremamente alto! • Mas a previsão do comprimento da pétala no nosso modelo ainda apresenta imprecisão!
  28. 28. CORRELAÇÃO E REGRESSÃO: PÉTALAS DA IRIS • Testar por erros na previsão n x y y previsto erro % 23 1.4 0.1 0.22 119.0 51 4.5 1.5 1.51 0.5 86 4.3 1.3 1.42 9.6 138 5.0 1.9 1.72 9.7 142 5.7 2.5 2.01 19.7 Erro médio: 20.6%
  29. 29. CORRELAÇÃO E REGRESSÃO: SÉPALAS DA IRIS
  30. 30. CORRELAÇÃO E REGRESSÃO: SÉPALAS DA IRIS • Coeficiente de correlação = -0.1176! • Isto não parece estar certo! • A largura da pétala deveria crescer quando o comprimento da pétala cresce e não diminuir!
  31. 31. CORRELAÇÃO E REGRESSÃO: SÉPALAS DA IRIS
  32. 32. CORRELAÇÃO E REGRESSÃO: SÉPALAS DA IRIS • Correlação positiva entre indivíduos de uma mesma espécie! • 0.74 • 0.53 • 0.46
  33. 33. CORRELAÇÃO E REGRESSÃO: SÉPALAS DA IRIS • Correlação negativa falsa devido a combinação de de dados pertencentes a diferentes agrupamentos! • Um tipo de manipulação de dados que, as vezes de forma não-intencional, pode dar suporte a afirmações do tipo: • Existem mentiras, mentiras cabeludas e Estatística!
  34. 34. CORRELAÇÃO != CAUSALIDADE

×