Universidade Federal de Itajubá
IRN005 – ESTATÍSTICA PARA CIÊNCIAS AMBIENTAIS E
ENGENHARIA
Profa. Maria Alice Machado Rodrigues
IRN005 – ESTATÍSTICA PARA
CIÊNCIAS AMBIENTAIS E ENGENHARIA
Profa. Maria Alice Machado Rodrigues
mariaalice.unifei@gmail.com
Aula 6
Correlação e Regressão
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
CORRELAÇÃO
Objetivo: Analisar a relação entre duas (ou mais) variáveis
Existe correlação entre duas variáveis quando uma delas está relacionada com a
outra de alguma maneira. Deve-se destacar que relação não implica uma medida
de causa-efeito entre as variáveis.
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Coeficiente de correlação de Pearson (r):
◦ mede a intensidade da relação linear entre os valores x e y (emparelhados) em uma amostra.
2
2
r 0 Correlação positiva
ˆ
(y y)
r
(y y)
r 0 Correlação positiva
 →

− 
=  → 
−   →



( ) ( )( )
( ) ( ) ( ) ( )
2 2
2 2
n xy x y
r
n x x n y y
−
=
− −
  
   
O coeficiente de correlação também pode ser calculado diretamente dos dados pareados
CORRELAÇÃO
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
( ) ( )( )
( ) ( ) ( ) ( )
2 2
2 2
n xy x y
r 0,847
n x x n y y
−
= =
− −
  
   
x y xy x² y²
2 5 10 4 25
3 7 21 9 49
3 5 15 9 25
2 6 12 4 36
4 7 28 16 49
5 9 45 25 81
5 10 50 25 100
3 8 24 9 64
2 3 6 4 9
4 9 36 16 81
soma 33 69 247 121 519
média 3.3 6.9
CORRELAÇÃO
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
7
Coeficiente de correlação (r)
Fonte: Wikipedia
CORRELAÇÃO
A não correlação linear significativa (r=0) não quer dizer que não há relação entre as
variáveis, mas sim relação LINEAR.
Podendo haver outra relação NÃO-LINEAR.
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
8
Coeficiente de correlação (r): Quatro conjuntos de dados com o mesmo coeficiente de correlação: r = 0,816
CORRELAÇÃO
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Outliers e pontos influentes:
– Pontos que afetam fortemente o gráfico da reta de regressão
0.00
0.20
0.40
0.60
0.80
1.00
1.20
1.40
1.60
1.80
0.00 1.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00
CORRELAÇÃO
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Teste de Hipótese formal para correlação
◦ H0:  = 0; H1:   0
◦ Estatística de Teste:
◦ Se o valor absoluto da Estatística de Teste for:
◦ maior que o valor crítico → Rejeitar H0 → correlação linear significante!
◦ menor que o valor crítico → Deixar de rejeitar H0 → não há evidência suficiente para se concluir que haja
correlação linear!
2
r
t
1 r
n 2
=
−
−
Neste caso os valores críticos são
obtidos na tabela de Student com
n – 2 graus de liberdade.
O próprio valor de r
Neste caso os valores críticos são
obtidos na tabela de Pearson.
CORRELAÇÃO
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Supondo que:
◦ O coeficiente de correlação seja: r para uma amostra e  para a população
◦ A amostra de dados amostrais emparelhados (x,y) seja uma amostra aleatória de dados quantitativos
◦ Com o uso da tabela de valores críticos do Coeficiente de Correlação de Pearson (r), pode-se verificar:
◦ se o valor absoluto de r implica em uma correlação linear significante (r > rp)
ou
◦ que não há evidência suficiente para apoiar a conclusão de uma correlação linear
significante.
Obs: A rigor, os pares (x,y) devem ter distribuição normal bivariada (isto é, para um valor fixo de x os
valores correspondentes de y tem distribuição normal e vice-versa. Difícil de se verificar.
CORRELAÇÃO
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
12
O teste de hipótese para correlação geralmente é bilateral.
Testes unilaterais ocorrem quando há o teste da afirmativa de uma correlação linear positiva ou negativa.
Nestes casos:
◦ Afirmativa de correlação positiva (teste unilateral à direita)
◦ H0:  = 0; H1:  > 0
◦ Afirmativa de correlação negativa (teste unilateral à esquerda)
◦ H0:  = 0; H1:  < 0
Usar o método de Student ou modificar a tabela de Pearson substituindo  = 0,05 e  = 0,01 pelos valores críticos
unilaterais de  = 0,025 e  = 0,005
CORRELAÇÃO
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
( ) ( )( )
( ) ( ) ( ) ( )
2 2
2 2
n xy x y
r 0,847
n x x n y y
−
= =
− −
  
   
x y xy x² y²
2 5 10 4 25
3 7 21 9 49
3 5 15 9 25
2 6 12 4 36
4 7 28 16 49
5 9 45 25 81
5 10 50 25 100
3 8 24 9 64
2 3 6 4 9
4 9 36 16 81
soma 33 69 247 121 519
média 3.3 6.9
CORRELAÇÃO
Será que esse alto valor de r garante a
correlação entre x e y ?
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
( ) ( )( )
( ) ( ) ( ) ( )
2 2
2 2
n xy x y
r
n x x n y y
−
=
− −
  
   
Será que esse alto valor de r garante a correlação entre x e y ?
Pela tabela de Pearson, para 8 graus de liberdade, temos rc = ± 0,632.
r > rc
Portanto, há evidência suficiente para apoiar a correlação entre x e y
r = 0,847
CORRELAÇÃO
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Erros comuns
◦ Concluir que a correlação implica causalidade
◦ Por exemplo: Conclui-se que há correlação entre as variáveis A e B, mas não podemos concluir que o
aumento de A cause um aumento de B.
◦ B pode ser afetada por variáveis ocultas que não estão incluídas no estudo.
◦ Dados que se baseiam em médias
◦ Médias suprimem a variação invididual e, portanto, podem aumentar o coeficiente de correlação.
◦ Linearidade
◦ Pode existir relação entre x e y mesmo quando não exista correlação linear significativa. Por exemplo: Em
uma função de 2° grau, que resulta em r = 0.
CORRELAÇÃO
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
(ഥ
𝒙, ഥ
𝒚) → centroide
y – y̅ = 9 – 6,9 = 2,1
x y
(x x)(y y)
r
(n 1)s s
− −
=
−

Uma forma equivalente para r
CORRELAÇÃO
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
(ഥ
𝒙, ഥ
𝒚) → centroide
y – y̅ = 9 – 6,9 = 2,1
CORRELAÇÃO
A linha de regressão passa pelo
centróide dos dados. Isso significa que a
linha de ajuste minimiza a soma dos
quadrados das distâncias verticais dos
pontos ao longo da linha, e a posição do
centróide ajuda a determinar a
inclinação e a interceptação da linha de
regressão.
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Regressão linear
Objetivo: Analisar a relação entre duas (ou mais) variáveis através da equação de regressão e do gráfico de
regressão que representa tal relação.
Equação de regressão – Relação entre:
◦ x: variável independente (preditora, explanatória)
◦ y: variável dependente (resposta)
Deste modo, a análise de regressão consiste de encontrar uma função linear que permita:
◦ Descrever a relação entre uma variável dependente e uma ou mais variáveis independentes.
◦ Estimar uma variável em função de uma ou mais variáveis independentes.
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
( ) ( )( )
( ) ( )
2
2
n xy x y
a
n x x
−
=
−
  
 
y x y ax b
=  +  = +
intercepto de y
Inclinação (coeficiente angular)
a
b
→ estatísticas amostrais


→ parâmetros populacionais
Equação de regressão linear
(ou reta de melhor ajuste, ou de mínimos quadrados)
Regressão linear
𝑏 =
σ 𝑦 σ 𝑥2 − σ 𝑥 σ 𝑥𝑦
𝑛 σ 𝑥2 − σ 𝑥 2
𝑏 = lj
𝑦 − 𝑎 lj
𝑥 ⇒ lj
𝑥 e lj
𝑦 coordenada do centróide
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
20
( ) ( )( )
( ) ( )
2 2
2
n xy x y 10(247) (33)(69)
a 1,5950
10(121) (33)
n x x
− −
= = =
−
−
  
 
𝑏 = lj
𝑦 − 𝑎 lj
𝑥 ⇒ 𝑏 = 6,900 − 1,595.3,300 = 1,6364
ŷ 1,5950x 1,6364
= +
x y
2 5
3 7
3 5
2 6
4 7
5 9
5 10
3 8
2 3
4 9
ATENÇÃO: SEMPRE TRABALHE COM O MAIOR
N° DE ALGARISMOS SIGNIFICATIVOS NOS CÁLCULOS INTERMEDIÁRIOS
x y xy x² y²
2 5 10 4 25
3 7 21 9 49
3 5 15 9 25
2 6 12 4 36
4 7 28 16 49
5 9 45 25 81
5 10 50 25 100
3 8 24 9 64
2 3 6 4 9
4 9 36 16 81
soma 33 69 247 121 519
média 3.3 6.9
Estimativa de y= x + 
Regressão linear
Centróide
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Resíduo: Diferença entre o valor amostral observado (y) e o valor previsto pela equação de regressão (ො
𝑦).
Resíduo = 𝑑𝑖 = 𝑦 − ො
𝑦
Propriedade dos mínimos quadrados: Soma dos quadrados dos resíduos deve ser mínima para que a reta
satisfaça tal propriedade.
(di
2) = 12,116
2 2
i i i
ˆ
d (y y ) mínimo
= − =
 
x y xy x² y²
2 5 10 4 25
3 7 21 9 49
3 5 15 9 25
2 6 12 4 36
4 7 28 16 49
5 9 45 25 81
5 10 50 25 100
3 8 24 9 64
2 3 6 4 9
4 9 36 16 81
soma 33 69 247 121 519
média 3.3 6.9
y^ resíduo resíduo²
4.826 0.174 0.030
6.421 0.579 0.335
6.421 -1.421 2.020
4.826 1.174 1.377
8.016 -1.016 1.033
9.611 -0.611 0.374
9.611 0.389 0.151
6.421 1.579 2.492
4.826 -1.826 3.336
8.016 0.984 0.967
12.116
Regressão linear
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Uma reta satisfaz a
propriedade dos mínimos
quadrados se a soma dos
quadrados dos resíduos é a
menor soma possível.
Resíduo = 𝑑𝑖
2
= 𝑦 − ො
𝑦
2 2
i i i
ˆ
d (y y ) mínimo
= − =
 
Regressão linear
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Variação explicada e não-explicada
◦ Variação total (SST): é o resultado da soma dos quadrados dos desvios dos valores de y
observado em relação à média de y.
◦ Variação explicado (SSR): pela variável independente é o resultado da soma dos quadrados dos
desvios dos valores estimados em relação à média.
◦ Variação não-explicado (SSE): é o resultado da soma dos quadrados dos desvios de y observado
em relação aos valores estimados
Variação total = Variação explicada + Variação não-explicada
2 2 2
ˆ ˆ
(y y) (y y) (y y)
− = − + −
  
Regressão linear
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Variação explicada e não-explicada
◦ Desvio total: Distância entre o ponto (x,y) e a reta
horizontal que passa pela média amostral → 𝒚 − ഥ
𝒚
◦ Desvio explicado: Distância entre o valor predito e a reta
horizontal que passa pela média amostral → ෝ
𝒚 − ഥ
𝒚
◦ Desvio não-explicado: Resíduo. Distância entre o ponto
(x,y) e a reta de regressão → 𝐲 − ෝ
𝒚
Desvio total
𝒚 − ഥ
𝒚
Desvio explicado
ෝ
𝒚 − ഥ
𝒚
Desvio não-explicado
𝒚 − ෝ
𝒚
Regressão linear
ഥ
𝒚
ෝ
𝒚
𝒚
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Variação explicada e não-explicada
◦ Desvio total: Distância entre o ponto (x,y) e a reta horizontal que passa pela média amostral → 𝑦 − ത
𝑦
◦ Desvio explicado: Distância entre o valor predito e a reta horizontal que passa pela média amostral → ො
𝑦 − ത
𝑦
◦ Desvio não-explicado: Resíduo. Distância entre o ponto (x,y) e a reta de regressão → y − ො
𝑦
Desvio total = Desvio explicado + Desvio não-explicado
ˆ ˆ
(y y) (y y) (y y)
− = − + −
Regressão linear
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
x y y^ desvio total desvio explicado desvio não-explicado
2 5 4.826 -1.90 -2.074 0.174
3 7 6.421 0.10 -0.479 0.579
3 5 6.421 -1.90 -0.479 -1.421
2 6 4.826 -0.90 -2.074 1.174
4 7 8.016 0.10 1.116 -1.016
5 9 9.611 2.10 2.711 -0.611
5 10 9.611 3.10 2.711 0.389
3 8 6.421 1.10 -0.479 1.579
2 3 4.826 -3.90 -2.074 -1.826
4 9 8.016 2.10 1.116 0.984
soma 33 69
média 3.30 6.90
Variação explicada e não-explicada
 Desvio total: Distância entre o ponto (x,y) e a reta horizontal que passa pela média amostral → 𝑦 − ത
𝑦
 Desvio explicado: Distância entre o valor predito e a reta horizontal que passa pela média amostral → ො
𝑦 − ത
𝑦
 Desvio não-explicado: Resíduo. Distância entre o ponto (x,y) e a reta de regressão → y − ො
𝑦
Regressão linear
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
x y y^ desvio total desvio explicado desvio não-explicado
2 5 4.826 -1.90 -2.074 0.174
3 7 6.421 0.10 -0.479 0.579
3 5 6.421 -1.90 -0.479 -1.421
2 6 4.826 -0.90 -2.074 1.174
4 7 8.016 0.10 1.116 -1.016
5 9 9.611 2.10 2.711 -0.611
5 10 9.611 3.10 2.711 0.389
3 8 6.421 1.10 -0.479 1.579
2 3 4.826 -3.90 -2.074 -1.826
4 9 8.016 2.10 1.116 0.984
soma 33 69 0.000 -0.001 0.001
variância total variância explicada variância não-explicada
3.610 4.300 0.030
0.010 0.229 0.335
3.610 0.229 2.020
0.810 4.300 1.377
0.010 1.246 1.033
4.410 7.352 0.374
9.610 7.352 0.151
1.210 0.229 2.492
15.210 4.300 3.336
4.410 1.246 0.967
soma 42.900 30.783 12.116
Regressão linear
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Coeficiente de determinação do modelo (r2)
Quantidade de variação em y, explicada pela reta de regressão.
r2 indica a % da variação total em y que pode ser explicada pela relação linear (x,y).
No caso do exemplo: r2 = 30,783/42,900 = 0,7175.
Isto é, 71,8% da variação total em y que pode ser explicada pela relação linear (x,y).
2
2
2
ˆ
(y y) Variação explicada
r
(y y) Variação total
−
= =
−


Se a variação total for toda não-explicada. Isto é, se a
variação explicada for nula, então o valor de r2 = 0.
Se a variação total for toda explicada. Isto é, se a
variação não-explicada for nula, então o valor de r2 = 1.
Regressão linear
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Coeficiente de determinação do modelo (r2)
é interpretado como a fração da variabilidade da variável
dependente explicada pela variável independente utilizada no modelo
Quanto mais próximo de 1, melhor é o modelo
Regressão linear
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Exemplo 1: A tabela ao lado mostra o tempo (em horas) de exposição de uma amostra de
bactérias ao ar e a produção da toxina  (em mg).
a) Construa o diagrama de dispersão e interprete-o.
b) Calcule o coeficiente de correlação linear entre t(h) e (mg)
c) Ajuste uma reta de regressão para a relação entre as variáveis  (dependente) e t
(independente)
d) Considerando a reta estimada dada no item (c), estime a produção média da toxina em
uma exposição de 50 horas
e) Determine o erro padrão da estimativa
f) Estabeleça o intervalo de predição para o valor calculado no item d.
t(h)  (mg)
32.8 41.8
36.4 37.6
40.0 25.3
27.2 39.4
34.8 32.9
29.2 42.9
31.2 40.0
32.0 32.9
26.0 44.7
33.6 38.2
46.4 26.5
30.4 34.1
38.8 26.5
40.0 31.2
42.0 28.8
30.8 45.9
29.2 42.9
31.2 40.0
28.6 35.0
41.0 28.0
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
31
Exemplo 1:
a) Construa o diagrama de dispersão e
interprete-o.
t(h)  (mg)
32.8 41.8
36.4 37.6
40.0 25.3
27.2 39.4
34.8 32.9
29.2 42.9
31.2 40.0
32.0 32.9
26.0 44.7
33.6 38.2
46.4 26.5
30.4 34.1
38.8 26.5
40.0 31.2
42.0 28.8
30.8 45.9
29.2 42.9
31.2 40.0
28.6 35.0
41.0 28.0
a)
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
32
Exemplo 1:
b) Calcule o coeficiente de correlação linear
entre t(h) e (mg)
c) Ajuste uma reta de regressão para a
relação entre as variáveis  (dependente)
e t (independente)
d) Considerando a reta estimada dada no
item (c), estime a produção média da
toxina em uma exposição de 50 horas
e) Determine o erro padrão da estimativa
f) Estabeleça o intervalo de predição para o
valor calculado no item d.
t(h)  (mg)
32.8 41.8
36.4 37.6
40.0 25.3
27.2 39.4
34.8 32.9
29.2 42.9
31.2 40.0
32.0 32.9
26.0 44.7
33.6 38.2
46.4 26.5
30.4 34.1
38.8 26.5
40.0 31.2
42.0 28.8
30.8 45.9
29.2 42.9
31.2 40.0
28.6 35.0
41.0 28.0
a)
b) r = – 0,820
c) y = – 0,954x + 68,249
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
problemas com variáveis
dependentes categóricas
Outros tipos (curvas) de regressão
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Curva de grau 2: ෝ
𝒚 = 𝒂𝒐 + 𝒂𝟏𝒙 + 𝒂𝟐𝒙𝟐
𝑀𝑀𝑄 ⇒
෍ ො
𝑦 = 𝑛 ⋅ 𝑎𝑜 + 𝑎1 ෍ 𝑥 + 𝑎2 ෍ 𝑥2
෍ ො
𝑦 ⋅ 𝑥 = 𝑎𝑜 ෍ 𝑥 + 𝑎1 ෍ 𝑥2
+ 𝑎2 ෍ 𝑥3
෍ ො
𝑦 ⋅ 𝑥2
= 𝑎𝑜 ෍ 𝑥2
+ 𝑎1 ෍ 𝑥3
+ 𝑎2 ෍ 𝑥4
Curva de grau i: ෝ
𝒚 = 𝒂𝒐 + 𝒂𝟏𝒙 + 𝒂𝟐𝒙𝟐+. . . +𝒂𝒊𝒙𝒊
𝑀𝑀𝑄 ⇒
෍ ො
𝑦 = 𝑛 ⋅ 𝑎𝑜 + 𝑎1 ෍ 𝑥 + 𝑎2 ෍ 𝑥2
+. . . +𝑎𝑖 ෍ 𝑥𝑖
෍ ො
𝑦 ⋅ 𝑥 = 𝑎𝑜 ෍ 𝑥 + 𝑎1 ෍ 𝑥2
+ 𝑎2 ෍ 𝑥3
+. . . +𝑎𝑖 ෍ 𝑥𝑖+1
෍ ො
𝑦 ⋅ 𝑥2
= 𝑎𝑜 ෍ 𝑥2
+ 𝑎1 ෍ 𝑥3
+ 𝑎2 ෍ 𝑥4
+. . . +𝑎𝑖 ෍ 𝑥𝑖+2
⋮
෍ ො
𝑦 ⋅ 𝑥𝑖
= 𝑎𝑜 ෍ 𝑥𝑖
+ 𝑎1 ෍ 𝑥𝑖+1
+ 𝑎2 ෍ 𝑥𝑖+2
+. . . +𝑎𝑖 ෍ 𝑥2𝑖
Outros tipos (curvas) de regressão
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Exponencial de base ajustável: ෝ
𝒚 = 𝒂𝒐𝒂𝟏𝒆𝒙
෍ ෣
log 𝑦𝑖 = 𝑛 log 𝑎𝑜 + log 𝑎1 ෍ 𝑥𝑖
෍ 𝑥𝑖
෣
log 𝑦𝑖 = log 𝑎𝑜 ෍ 𝑥𝑖 + log 𝑎1 ෍ 𝑥𝑖
2
Exponencial de base neperiana: ෝ
𝒚 = 𝒂𝒐𝒆𝒂𝟏𝒙
෍ ෢
ln 𝑦𝑖 = 𝑛 ln 𝑎𝑜 + 𝑎1 ෍ 𝑥𝑖
෍ 𝑥𝑖
෢
ln 𝑦𝑖 = ln 𝑎𝑜 ෍ 𝑥𝑖 + 𝑎1 ෍ 𝑥𝑖
2
Geométrica (power regression): ෝ
𝒚 = 𝒂𝒐𝒙𝒆𝒂𝟏
෍ ෣
log 𝑦𝑖 = 𝑛 log 𝑎𝑜 + 𝑎1 log ෍ 𝑥𝑖
෍ log 𝑥𝑖
෣
log 𝑦𝑖 = log 𝑎𝑜 ෍ log 𝑥𝑖 + 𝑎1 ෍(log 𝑥𝑖)2
Outros tipos (curvas) de regressão
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Predições (estimativas)
Usando a equação de regressão para predizer valores
Se existe correlação linear
(isto é,  = 0 é rejeitada)
A predição do valor é feita
usando a equação de regressão
Se não existe correlação linear
(isto é, deixamos de rejeitar  = 0)
A melhor predição é dada pela
média amostral da variável
Cuidados com a predição!
✓ Manter o valor da previsão de acordo com valores reais (no alcance da amostra).
✓ Usar a equação para a população da amostra.
✓ Verificar se a previsão é viável (datas, intervalos de valores, etc.)
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
ŷ 1,595x 1,636 1,595.4 1,636 8,017 8
= + = + = 
Qual seria o valor da variável y quando x = 4 ?
Mudança marginal (a): variação de uma variável em
relação a variação, em uma unidade, da outra variável
emparelhada.
No exemplo em que a = 1,595, temos que a taxa de y
vai aumentar de 1,595 para cada aumento de uma
unidade de x.
Predições (estimativas)
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
t(h)  (mg)
32.8 41.8
36.4 37.6
40.0 25.3
27.2 39.4
34.8 32.9
29.2 42.9
31.2 40.0
32.0 32.9
26.0 44.7
33.6 38.2
46.4 26.5
30.4 34.1
38.8 26.5
40.0 31.2
42.0 28.8
30.8 45.9
29.2 42.9
31.2 40.0
28.6 35.0
41.0 28.0
a)
d) y = – 0,954x + 68,249
Mudança marginal (a): variação de uma
variável em relação a variação, em uma
unidade, da outra variável emparelhada.
No exemplo em que a = -0,954, temos que
a taxa de y vai reduzir de 0,954 mg para
cada aumento de uma unidade de x.
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Erro padrão da estimativa (se):
✓ Medida de como os pontos amostrais se afastam da reta de regressão;
✓ Isto é, é uma medida das distâncias entre os valores amostrais de y (observados) e ො
𝑦 (preditos);
✓ se maiores indicam pontos mais afastados da reta de regressão.
No nosso exemplo:
2 2
o o
e
ˆ
(y y) y b y a xy
s
n 2 n 2
− − −
= =
− −
   
e
519 1,636(69) 1,595(247)
s 1,2306
10 2
− −
= =
−
Predições (estimativas)
Exemplo slide 20
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Desvio não-explicado: Resíduo. Distância entre o ponto (x,y) e a reta de regressão → y − ො
𝑦
2 2
o o
e
ˆ
(y y) y b y a xy
s
n 2 n 2
− − −
= =
− −
   
Erro padrão da estimativa (se):
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Intervalo de predição para um y individual
Dado um valor fixo de 𝑥𝑜, o intervalo de predição par um determinado y é:
No exemplo: Vimos que quando x = 4 a melhor predição para y é 8. No entanto, ao se usar valores mais precisos
de y, b e a, obtemos 8,017. Para significância de 95% determine o quão precisa é estimativa de y quando x = 4.
( ) ( )
2
o
e 2
2
2
n(x x)
1
ˆ ˆ
y E y y E com E t s 1
n n x x

−
−   + = + +
−
 
( ) ( )
2
2
1 10(4 3,3)
E 2,306(1,2306) 1 3,031
10 10 121 33
−
= + + =
−
com n–2 graus de liberdade
Se  = 0,05 → t/2 = 2,306 p/ 8 graus de liberdade
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
42
Exemplo 1:
b) Calcule o coeficiente de correlação linear
entre t(h) e (mg)
c) Ajuste uma reta de regressão para a
relação entre as variáveis 
(dependente) e t (independente)
d) Considerando a reta estimada dada no
item (c), estime a produção média da
toxina em uma exposição de 50 horas
e) Determine o erro padrão da estimativa
f) Estabeleça o intervalo de predição para o
valor calculado no item d.
t(h)  (mg)
32.8 41.8
36.4 37.6
40.0 25.3
27.2 39.4
34.8 32.9
29.2 42.9
31.2 40.0
32.0 32.9
26.0 44.7
33.6 38.2
46.4 26.5
30.4 34.1
38.8 26.5
40.0 31.2
42.0 28.8
30.8 45.9
29.2 42.9
31.2 40.0
28.6 35.0
41.0 28.0
a)
d) y = – 0,954x + 68,249
y = – 0,954.50 + 68,249 = 20,549
Para 50h,  = 20,5 mg
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
43
Exemplo 1:
b) Calcule o coeficiente de correlação linear
entre t(h) e (mg)
c) Ajuste uma reta de regressão para a
relação entre as variáveis  (dependente)
e t (independente)
d) Considerando a reta estimada dada no
item (c), estime a produção média da
toxina em uma exposição de 50 horas
e) Determine o erro padrão da estimativa
f) Estabeleça o intervalo de predição para o
valor calculado no item d.
t(h)  (mg)
32.8 41.8
36.4 37.6
40.0 25.3
27.2 39.4
34.8 32.9
29.2 42.9
31.2 40.0
32.0 32.9
26.0 44.7
33.6 38.2
46.4 26.5
30.4 34.1
38.8 26.5
40.0 31.2
42.0 28.8
30.8 45.9
29.2 42.9
31.2 40.0
28.6 35.0
41.0 28.0
a)
e) se = 3,838721
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
44
Exemplo 1:
b) Calcule o coeficiente de correlação linear
entre t(h) e (mg)
c) Ajuste uma reta de regressão para a
relação entre as variáveis 
(dependente) e t (independente)
d) Considerando a reta estimada dada no
item (c), estime a produção média da
toxina em uma exposição de 50 horas
e) Determine o erro padrão da estimativa
f) Estabeleça o intervalo de predição para o
valor calculado no item d.
e) se = 3,838721
( ) ( )
( ) ( )
2
o
e 2
2
2
2
2
n(x x)
1
E t s 1
n n x x
1 20(50 34,1)
E 2,101.3,839 1 9,788
20 20 2382
20,549 9,788 y 20,549 9,788
10,760 y 30,337
7,0 681,6
ˆ
10,8 y 30,
ˆ
y E y y
3
E

−
= + +
−
−
= + + =
−
−   + ⎯⎯
→ −   +
  ⎯⎯
→  
 
f)
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Relação linear entre uma variável dependente y e duas ou mais variáveis independentes (x1, x2,..., xk)
K → numero de variáveis independentes (preditoras)
o 1 1 2 2 k k
ŷ b b x b x ... b x
= + + + +
Regressão Múltipla
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Relação linear entre uma variável dependente y e duas ou mais variáveis independentes (x1, x2,..., xk)
K → numero de variáveis independentes (preditoras)
1, 2,..., k → coeficientes das variáveis independentes x1, x2,..., xk
b1, b2,..., bk → estimativas amostrais de 1, 2,..., k
o → valor de y quando todas as variáveis são nulas
(parâmetro populacional)
bo → estatística amostral e estimativa de o
Complicado! Exige o uso de pacotes estatísticos!
o 1 1 2 2 k k
ŷ b b x b x ... b x
= + + + +
Regressão Múltipla
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Coeficiente de determinação múltipla (R2): Avalia o ajuste da equação de regressão múltipla aos dados
amostrais.
Coeficiente de determinação múltipla ajustado: R2 modificado para levar em conta o número de variáveis e o
tamanho amostral.
k = número de variáveis independentes (x1, x2,..., xk)
n = tamanho da amostra
Valor P: Medida da significância da Eq. Reg. Múltipla
2 2
( 1)
1 (1 )
[ ( 1)]
ajustado
n
R R
n k
−
= − −
− +
Regressão Múltipla
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Exemplo regressão múltipla no python:
Neste exemplo foram criados informações fictíciasde temperatura,
concentração de material particulado(PM10) e dióxidode nitrogênio
(NO2).
Um índicede qualidadedo ar também fictíciofoi calculado em função
destas 3 variáveis independentes.
A regressão múltiplafoi calculadafazendo:
variável y: qualidadedo ar
variável x: temperatura, PM10 e NO2
import pandas as pd
import numpy as np
import statsmodels.api as sm
import matplotlib.pyplot as plt
import seaborn as sns
# Gerar um conjunto de dados fictício
np.random.seed(42)
n = 100
temperatura = np.random.normal(20, 5, n) # Temperatura em graus Celsius
pm10 = np.random.normal(30, 10, n) # PM10 em microgramas/m³
no2 = np.random.normal(25, 5, n) # NO2 em microgramas/m³
qualidade_ar = 50 - (0.5 * temperatura) - (0.2 * pm10) - (0.3 * no2) +
np.random.normal(0, 5, n)
# Criar um DataFrame
dados = pd.DataFrame({
'Temperatura': temperatura,
'PM10': pm10,
'NO2': no2,
'Qualidade_Air': qualidade_ar
})
# Exibir as primeiras linhas do DataFrame
print(dados.head())
# Definir as variáveis independentes (X) e dependentes (y)
X = dados[['Temperatura', 'PM10', 'NO2']]
y = dados['Qualidade_Air']
# Adicionar uma constante (intercepto) ao modelo
X = sm.add_constant(X)
# Ajustar o modelo de regressão múltipla
modelo = sm.OLS(y, X).fit()
# Exibir o resumo do modelo
print(modelo.summary())
# Fazer previsões
dados['Previsoes'] = modelo.predict(X)
Este exemplo pode ser feito no
Google Colab
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Exemplo regressão múltipla no python:
Neste exemplo foram criados informações fictíciasde temperatura,
concentração de material particulado(PM10) e dióxidode nitrogênio
(NO2).
Um índicede qualidadedo ar também fictíciofoi calculadoem função
destas 3 variáveisindependentes.
A regressão múltiplafoi calculadafazendo:
variável y: qualidadedo ar
variável x: temperatura, PM10 e NO2
# Plot 3D das variáveis preditoras
fig = plt.figure(figsize=(17, 10))
ax = fig.add_subplot(111, projection='3d')
# Criar o gráfico 3D
ax.scatter(dados['Temperatura'], dados['PM10'], dados['NO2'], c='b',
marker='o', alpha=0.6)
# Definir rótulos dos eixos
ax.set_xlabel('Temperatura (°C)')
ax.set_ylabel('PM10 (µg/m³)')
ax.set_zlabel('NO2 (µg/m³)')
ax.set_title('Plot 3D das Variáveis Preditoras')
# Ajustar limites dos eixos
ax.set_xlim(dados['Temperatura'].min() - 5, dados['Temperatura'].max() +
3)
ax.set_ylim(dados['PM10'].min() - 5, dados['PM10'].max() + 3)
ax.set_zlim(dados['NO2'].min() - 5, dados['NO2'].max() + 3)
# Exibir o gráfico
plt.show()
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
x1: Temperatura em graus Celsius
x2: PM10 em microgramas/m³
X3: NO2 em microgramas/m³
NO
2
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Exemplo regressão múltipla no python:
Neste exemplo foram criados informações fictíciasde temperatura,
concentração de material particulado(PM10) e dióxidode nitrogênio
(NO2).
Um índicede qualidadedo ar também fictíciofoi calculadoem função
destas 3 variáveisindependentes.
A regressão múltiplafoi calculadafazendo:
variável y: qualidadedo ar
variável x: temperatura, PM10 e NO2
# Visualizar os resultados
plt.figure(figsize=(10, 6))
sns.scatterplot(x=dados['Qualidade_Air'], y=dados['Previsoes'])
plt.xlabel('Qualidade do Ar Real')
plt.ylabel('Qualidade do Ar Prevista')
plt.title('Qualidade do Ar Real vs Prevista')
plt.plot([dados['Qualidade_Air'].min(), dados['Qualidade_Air'].max()],
[dados['Qualidade_Air'].min(), dados['Qualidade_Air'].max()],
color='red', linestyle='--')
plt.grid()
plt.show()
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
© 2020 - Prof. Marcelo de Paula Corrêa – Proibida reprodução
Este exemplo pode ser feito no Google Colab: https://colab.research.google.com/

Slides Correlacao e Regressao - Estatistica

  • 1.
    Universidade Federal deItajubá IRN005 – ESTATÍSTICA PARA CIÊNCIAS AMBIENTAIS E ENGENHARIA Profa. Maria Alice Machado Rodrigues
  • 2.
    IRN005 – ESTATÍSTICAPARA CIÊNCIAS AMBIENTAIS E ENGENHARIA Profa. Maria Alice Machado Rodrigues mariaalice.unifei@gmail.com Aula 6 Correlação e Regressão
  • 3.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução CORRELAÇÃO Objetivo: Analisar a relação entre duas (ou mais) variáveis Existe correlação entre duas variáveis quando uma delas está relacionada com a outra de alguma maneira. Deve-se destacar que relação não implica uma medida de causa-efeito entre as variáveis.
  • 4.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Coeficiente de correlação de Pearson (r): ◦ mede a intensidade da relação linear entre os valores x e y (emparelhados) em uma amostra. 2 2 r 0 Correlação positiva ˆ (y y) r (y y) r 0 Correlação positiva  →  −  =  →  −   →    ( ) ( )( ) ( ) ( ) ( ) ( ) 2 2 2 2 n xy x y r n x x n y y − = − −        O coeficiente de correlação também pode ser calculado diretamente dos dados pareados CORRELAÇÃO
  • 5.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução
  • 6.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução ( ) ( )( ) ( ) ( ) ( ) ( ) 2 2 2 2 n xy x y r 0,847 n x x n y y − = = − −        x y xy x² y² 2 5 10 4 25 3 7 21 9 49 3 5 15 9 25 2 6 12 4 36 4 7 28 16 49 5 9 45 25 81 5 10 50 25 100 3 8 24 9 64 2 3 6 4 9 4 9 36 16 81 soma 33 69 247 121 519 média 3.3 6.9 CORRELAÇÃO
  • 7.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução 7 Coeficiente de correlação (r) Fonte: Wikipedia CORRELAÇÃO A não correlação linear significativa (r=0) não quer dizer que não há relação entre as variáveis, mas sim relação LINEAR. Podendo haver outra relação NÃO-LINEAR.
  • 8.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução 8 Coeficiente de correlação (r): Quatro conjuntos de dados com o mesmo coeficiente de correlação: r = 0,816 CORRELAÇÃO
  • 9.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Outliers e pontos influentes: – Pontos que afetam fortemente o gráfico da reta de regressão 0.00 0.20 0.40 0.60 0.80 1.00 1.20 1.40 1.60 1.80 0.00 1.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00 CORRELAÇÃO
  • 10.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Teste de Hipótese formal para correlação ◦ H0:  = 0; H1:   0 ◦ Estatística de Teste: ◦ Se o valor absoluto da Estatística de Teste for: ◦ maior que o valor crítico → Rejeitar H0 → correlação linear significante! ◦ menor que o valor crítico → Deixar de rejeitar H0 → não há evidência suficiente para se concluir que haja correlação linear! 2 r t 1 r n 2 = − − Neste caso os valores críticos são obtidos na tabela de Student com n – 2 graus de liberdade. O próprio valor de r Neste caso os valores críticos são obtidos na tabela de Pearson. CORRELAÇÃO
  • 11.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Supondo que: ◦ O coeficiente de correlação seja: r para uma amostra e  para a população ◦ A amostra de dados amostrais emparelhados (x,y) seja uma amostra aleatória de dados quantitativos ◦ Com o uso da tabela de valores críticos do Coeficiente de Correlação de Pearson (r), pode-se verificar: ◦ se o valor absoluto de r implica em uma correlação linear significante (r > rp) ou ◦ que não há evidência suficiente para apoiar a conclusão de uma correlação linear significante. Obs: A rigor, os pares (x,y) devem ter distribuição normal bivariada (isto é, para um valor fixo de x os valores correspondentes de y tem distribuição normal e vice-versa. Difícil de se verificar. CORRELAÇÃO
  • 12.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução 12 O teste de hipótese para correlação geralmente é bilateral. Testes unilaterais ocorrem quando há o teste da afirmativa de uma correlação linear positiva ou negativa. Nestes casos: ◦ Afirmativa de correlação positiva (teste unilateral à direita) ◦ H0:  = 0; H1:  > 0 ◦ Afirmativa de correlação negativa (teste unilateral à esquerda) ◦ H0:  = 0; H1:  < 0 Usar o método de Student ou modificar a tabela de Pearson substituindo  = 0,05 e  = 0,01 pelos valores críticos unilaterais de  = 0,025 e  = 0,005 CORRELAÇÃO
  • 13.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução ( ) ( )( ) ( ) ( ) ( ) ( ) 2 2 2 2 n xy x y r 0,847 n x x n y y − = = − −        x y xy x² y² 2 5 10 4 25 3 7 21 9 49 3 5 15 9 25 2 6 12 4 36 4 7 28 16 49 5 9 45 25 81 5 10 50 25 100 3 8 24 9 64 2 3 6 4 9 4 9 36 16 81 soma 33 69 247 121 519 média 3.3 6.9 CORRELAÇÃO Será que esse alto valor de r garante a correlação entre x e y ?
  • 14.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução ( ) ( )( ) ( ) ( ) ( ) ( ) 2 2 2 2 n xy x y r n x x n y y − = − −        Será que esse alto valor de r garante a correlação entre x e y ? Pela tabela de Pearson, para 8 graus de liberdade, temos rc = ± 0,632. r > rc Portanto, há evidência suficiente para apoiar a correlação entre x e y r = 0,847 CORRELAÇÃO
  • 15.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Erros comuns ◦ Concluir que a correlação implica causalidade ◦ Por exemplo: Conclui-se que há correlação entre as variáveis A e B, mas não podemos concluir que o aumento de A cause um aumento de B. ◦ B pode ser afetada por variáveis ocultas que não estão incluídas no estudo. ◦ Dados que se baseiam em médias ◦ Médias suprimem a variação invididual e, portanto, podem aumentar o coeficiente de correlação. ◦ Linearidade ◦ Pode existir relação entre x e y mesmo quando não exista correlação linear significativa. Por exemplo: Em uma função de 2° grau, que resulta em r = 0. CORRELAÇÃO
  • 16.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução (ഥ 𝒙, ഥ 𝒚) → centroide y – y̅ = 9 – 6,9 = 2,1 x y (x x)(y y) r (n 1)s s − − = −  Uma forma equivalente para r CORRELAÇÃO
  • 17.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução (ഥ 𝒙, ഥ 𝒚) → centroide y – y̅ = 9 – 6,9 = 2,1 CORRELAÇÃO A linha de regressão passa pelo centróide dos dados. Isso significa que a linha de ajuste minimiza a soma dos quadrados das distâncias verticais dos pontos ao longo da linha, e a posição do centróide ajuda a determinar a inclinação e a interceptação da linha de regressão.
  • 18.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Regressão linear Objetivo: Analisar a relação entre duas (ou mais) variáveis através da equação de regressão e do gráfico de regressão que representa tal relação. Equação de regressão – Relação entre: ◦ x: variável independente (preditora, explanatória) ◦ y: variável dependente (resposta) Deste modo, a análise de regressão consiste de encontrar uma função linear que permita: ◦ Descrever a relação entre uma variável dependente e uma ou mais variáveis independentes. ◦ Estimar uma variável em função de uma ou mais variáveis independentes.
  • 19.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução ( ) ( )( ) ( ) ( ) 2 2 n xy x y a n x x − = −      y x y ax b =  +  = + intercepto de y Inclinação (coeficiente angular) a b → estatísticas amostrais   → parâmetros populacionais Equação de regressão linear (ou reta de melhor ajuste, ou de mínimos quadrados) Regressão linear 𝑏 = σ 𝑦 σ 𝑥2 − σ 𝑥 σ 𝑥𝑦 𝑛 σ 𝑥2 − σ 𝑥 2 𝑏 = lj 𝑦 − 𝑎 lj 𝑥 ⇒ lj 𝑥 e lj 𝑦 coordenada do centróide
  • 20.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução 20 ( ) ( )( ) ( ) ( ) 2 2 2 n xy x y 10(247) (33)(69) a 1,5950 10(121) (33) n x x − − = = = − −      𝑏 = lj 𝑦 − 𝑎 lj 𝑥 ⇒ 𝑏 = 6,900 − 1,595.3,300 = 1,6364 ŷ 1,5950x 1,6364 = + x y 2 5 3 7 3 5 2 6 4 7 5 9 5 10 3 8 2 3 4 9 ATENÇÃO: SEMPRE TRABALHE COM O MAIOR N° DE ALGARISMOS SIGNIFICATIVOS NOS CÁLCULOS INTERMEDIÁRIOS x y xy x² y² 2 5 10 4 25 3 7 21 9 49 3 5 15 9 25 2 6 12 4 36 4 7 28 16 49 5 9 45 25 81 5 10 50 25 100 3 8 24 9 64 2 3 6 4 9 4 9 36 16 81 soma 33 69 247 121 519 média 3.3 6.9 Estimativa de y= x +  Regressão linear Centróide
  • 21.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Resíduo: Diferença entre o valor amostral observado (y) e o valor previsto pela equação de regressão (ො 𝑦). Resíduo = 𝑑𝑖 = 𝑦 − ො 𝑦 Propriedade dos mínimos quadrados: Soma dos quadrados dos resíduos deve ser mínima para que a reta satisfaça tal propriedade. (di 2) = 12,116 2 2 i i i ˆ d (y y ) mínimo = − =   x y xy x² y² 2 5 10 4 25 3 7 21 9 49 3 5 15 9 25 2 6 12 4 36 4 7 28 16 49 5 9 45 25 81 5 10 50 25 100 3 8 24 9 64 2 3 6 4 9 4 9 36 16 81 soma 33 69 247 121 519 média 3.3 6.9 y^ resíduo resíduo² 4.826 0.174 0.030 6.421 0.579 0.335 6.421 -1.421 2.020 4.826 1.174 1.377 8.016 -1.016 1.033 9.611 -0.611 0.374 9.611 0.389 0.151 6.421 1.579 2.492 4.826 -1.826 3.336 8.016 0.984 0.967 12.116 Regressão linear
  • 22.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Uma reta satisfaz a propriedade dos mínimos quadrados se a soma dos quadrados dos resíduos é a menor soma possível. Resíduo = 𝑑𝑖 2 = 𝑦 − ො 𝑦 2 2 i i i ˆ d (y y ) mínimo = − =   Regressão linear
  • 23.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Variação explicada e não-explicada ◦ Variação total (SST): é o resultado da soma dos quadrados dos desvios dos valores de y observado em relação à média de y. ◦ Variação explicado (SSR): pela variável independente é o resultado da soma dos quadrados dos desvios dos valores estimados em relação à média. ◦ Variação não-explicado (SSE): é o resultado da soma dos quadrados dos desvios de y observado em relação aos valores estimados Variação total = Variação explicada + Variação não-explicada 2 2 2 ˆ ˆ (y y) (y y) (y y) − = − + −    Regressão linear
  • 24.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Variação explicada e não-explicada ◦ Desvio total: Distância entre o ponto (x,y) e a reta horizontal que passa pela média amostral → 𝒚 − ഥ 𝒚 ◦ Desvio explicado: Distância entre o valor predito e a reta horizontal que passa pela média amostral → ෝ 𝒚 − ഥ 𝒚 ◦ Desvio não-explicado: Resíduo. Distância entre o ponto (x,y) e a reta de regressão → 𝐲 − ෝ 𝒚 Desvio total 𝒚 − ഥ 𝒚 Desvio explicado ෝ 𝒚 − ഥ 𝒚 Desvio não-explicado 𝒚 − ෝ 𝒚 Regressão linear ഥ 𝒚 ෝ 𝒚 𝒚
  • 25.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Variação explicada e não-explicada ◦ Desvio total: Distância entre o ponto (x,y) e a reta horizontal que passa pela média amostral → 𝑦 − ത 𝑦 ◦ Desvio explicado: Distância entre o valor predito e a reta horizontal que passa pela média amostral → ො 𝑦 − ത 𝑦 ◦ Desvio não-explicado: Resíduo. Distância entre o ponto (x,y) e a reta de regressão → y − ො 𝑦 Desvio total = Desvio explicado + Desvio não-explicado ˆ ˆ (y y) (y y) (y y) − = − + − Regressão linear
  • 26.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução x y y^ desvio total desvio explicado desvio não-explicado 2 5 4.826 -1.90 -2.074 0.174 3 7 6.421 0.10 -0.479 0.579 3 5 6.421 -1.90 -0.479 -1.421 2 6 4.826 -0.90 -2.074 1.174 4 7 8.016 0.10 1.116 -1.016 5 9 9.611 2.10 2.711 -0.611 5 10 9.611 3.10 2.711 0.389 3 8 6.421 1.10 -0.479 1.579 2 3 4.826 -3.90 -2.074 -1.826 4 9 8.016 2.10 1.116 0.984 soma 33 69 média 3.30 6.90 Variação explicada e não-explicada  Desvio total: Distância entre o ponto (x,y) e a reta horizontal que passa pela média amostral → 𝑦 − ത 𝑦  Desvio explicado: Distância entre o valor predito e a reta horizontal que passa pela média amostral → ො 𝑦 − ത 𝑦  Desvio não-explicado: Resíduo. Distância entre o ponto (x,y) e a reta de regressão → y − ො 𝑦 Regressão linear
  • 27.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução x y y^ desvio total desvio explicado desvio não-explicado 2 5 4.826 -1.90 -2.074 0.174 3 7 6.421 0.10 -0.479 0.579 3 5 6.421 -1.90 -0.479 -1.421 2 6 4.826 -0.90 -2.074 1.174 4 7 8.016 0.10 1.116 -1.016 5 9 9.611 2.10 2.711 -0.611 5 10 9.611 3.10 2.711 0.389 3 8 6.421 1.10 -0.479 1.579 2 3 4.826 -3.90 -2.074 -1.826 4 9 8.016 2.10 1.116 0.984 soma 33 69 0.000 -0.001 0.001 variância total variância explicada variância não-explicada 3.610 4.300 0.030 0.010 0.229 0.335 3.610 0.229 2.020 0.810 4.300 1.377 0.010 1.246 1.033 4.410 7.352 0.374 9.610 7.352 0.151 1.210 0.229 2.492 15.210 4.300 3.336 4.410 1.246 0.967 soma 42.900 30.783 12.116 Regressão linear
  • 28.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Coeficiente de determinação do modelo (r2) Quantidade de variação em y, explicada pela reta de regressão. r2 indica a % da variação total em y que pode ser explicada pela relação linear (x,y). No caso do exemplo: r2 = 30,783/42,900 = 0,7175. Isto é, 71,8% da variação total em y que pode ser explicada pela relação linear (x,y). 2 2 2 ˆ (y y) Variação explicada r (y y) Variação total − = = −   Se a variação total for toda não-explicada. Isto é, se a variação explicada for nula, então o valor de r2 = 0. Se a variação total for toda explicada. Isto é, se a variação não-explicada for nula, então o valor de r2 = 1. Regressão linear
  • 29.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Coeficiente de determinação do modelo (r2) é interpretado como a fração da variabilidade da variável dependente explicada pela variável independente utilizada no modelo Quanto mais próximo de 1, melhor é o modelo Regressão linear
  • 30.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Exemplo 1: A tabela ao lado mostra o tempo (em horas) de exposição de uma amostra de bactérias ao ar e a produção da toxina  (em mg). a) Construa o diagrama de dispersão e interprete-o. b) Calcule o coeficiente de correlação linear entre t(h) e (mg) c) Ajuste uma reta de regressão para a relação entre as variáveis  (dependente) e t (independente) d) Considerando a reta estimada dada no item (c), estime a produção média da toxina em uma exposição de 50 horas e) Determine o erro padrão da estimativa f) Estabeleça o intervalo de predição para o valor calculado no item d. t(h)  (mg) 32.8 41.8 36.4 37.6 40.0 25.3 27.2 39.4 34.8 32.9 29.2 42.9 31.2 40.0 32.0 32.9 26.0 44.7 33.6 38.2 46.4 26.5 30.4 34.1 38.8 26.5 40.0 31.2 42.0 28.8 30.8 45.9 29.2 42.9 31.2 40.0 28.6 35.0 41.0 28.0
  • 31.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução 31 Exemplo 1: a) Construa o diagrama de dispersão e interprete-o. t(h)  (mg) 32.8 41.8 36.4 37.6 40.0 25.3 27.2 39.4 34.8 32.9 29.2 42.9 31.2 40.0 32.0 32.9 26.0 44.7 33.6 38.2 46.4 26.5 30.4 34.1 38.8 26.5 40.0 31.2 42.0 28.8 30.8 45.9 29.2 42.9 31.2 40.0 28.6 35.0 41.0 28.0 a)
  • 32.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução 32 Exemplo 1: b) Calcule o coeficiente de correlação linear entre t(h) e (mg) c) Ajuste uma reta de regressão para a relação entre as variáveis  (dependente) e t (independente) d) Considerando a reta estimada dada no item (c), estime a produção média da toxina em uma exposição de 50 horas e) Determine o erro padrão da estimativa f) Estabeleça o intervalo de predição para o valor calculado no item d. t(h)  (mg) 32.8 41.8 36.4 37.6 40.0 25.3 27.2 39.4 34.8 32.9 29.2 42.9 31.2 40.0 32.0 32.9 26.0 44.7 33.6 38.2 46.4 26.5 30.4 34.1 38.8 26.5 40.0 31.2 42.0 28.8 30.8 45.9 29.2 42.9 31.2 40.0 28.6 35.0 41.0 28.0 a) b) r = – 0,820 c) y = – 0,954x + 68,249
  • 33.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução problemas com variáveis dependentes categóricas Outros tipos (curvas) de regressão
  • 34.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Curva de grau 2: ෝ 𝒚 = 𝒂𝒐 + 𝒂𝟏𝒙 + 𝒂𝟐𝒙𝟐 𝑀𝑀𝑄 ⇒ ෍ ො 𝑦 = 𝑛 ⋅ 𝑎𝑜 + 𝑎1 ෍ 𝑥 + 𝑎2 ෍ 𝑥2 ෍ ො 𝑦 ⋅ 𝑥 = 𝑎𝑜 ෍ 𝑥 + 𝑎1 ෍ 𝑥2 + 𝑎2 ෍ 𝑥3 ෍ ො 𝑦 ⋅ 𝑥2 = 𝑎𝑜 ෍ 𝑥2 + 𝑎1 ෍ 𝑥3 + 𝑎2 ෍ 𝑥4 Curva de grau i: ෝ 𝒚 = 𝒂𝒐 + 𝒂𝟏𝒙 + 𝒂𝟐𝒙𝟐+. . . +𝒂𝒊𝒙𝒊 𝑀𝑀𝑄 ⇒ ෍ ො 𝑦 = 𝑛 ⋅ 𝑎𝑜 + 𝑎1 ෍ 𝑥 + 𝑎2 ෍ 𝑥2 +. . . +𝑎𝑖 ෍ 𝑥𝑖 ෍ ො 𝑦 ⋅ 𝑥 = 𝑎𝑜 ෍ 𝑥 + 𝑎1 ෍ 𝑥2 + 𝑎2 ෍ 𝑥3 +. . . +𝑎𝑖 ෍ 𝑥𝑖+1 ෍ ො 𝑦 ⋅ 𝑥2 = 𝑎𝑜 ෍ 𝑥2 + 𝑎1 ෍ 𝑥3 + 𝑎2 ෍ 𝑥4 +. . . +𝑎𝑖 ෍ 𝑥𝑖+2 ⋮ ෍ ො 𝑦 ⋅ 𝑥𝑖 = 𝑎𝑜 ෍ 𝑥𝑖 + 𝑎1 ෍ 𝑥𝑖+1 + 𝑎2 ෍ 𝑥𝑖+2 +. . . +𝑎𝑖 ෍ 𝑥2𝑖 Outros tipos (curvas) de regressão
  • 35.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Exponencial de base ajustável: ෝ 𝒚 = 𝒂𝒐𝒂𝟏𝒆𝒙 ෍ ෣ log 𝑦𝑖 = 𝑛 log 𝑎𝑜 + log 𝑎1 ෍ 𝑥𝑖 ෍ 𝑥𝑖 ෣ log 𝑦𝑖 = log 𝑎𝑜 ෍ 𝑥𝑖 + log 𝑎1 ෍ 𝑥𝑖 2 Exponencial de base neperiana: ෝ 𝒚 = 𝒂𝒐𝒆𝒂𝟏𝒙 ෍ ෢ ln 𝑦𝑖 = 𝑛 ln 𝑎𝑜 + 𝑎1 ෍ 𝑥𝑖 ෍ 𝑥𝑖 ෢ ln 𝑦𝑖 = ln 𝑎𝑜 ෍ 𝑥𝑖 + 𝑎1 ෍ 𝑥𝑖 2 Geométrica (power regression): ෝ 𝒚 = 𝒂𝒐𝒙𝒆𝒂𝟏 ෍ ෣ log 𝑦𝑖 = 𝑛 log 𝑎𝑜 + 𝑎1 log ෍ 𝑥𝑖 ෍ log 𝑥𝑖 ෣ log 𝑦𝑖 = log 𝑎𝑜 ෍ log 𝑥𝑖 + 𝑎1 ෍(log 𝑥𝑖)2 Outros tipos (curvas) de regressão
  • 36.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Predições (estimativas) Usando a equação de regressão para predizer valores Se existe correlação linear (isto é,  = 0 é rejeitada) A predição do valor é feita usando a equação de regressão Se não existe correlação linear (isto é, deixamos de rejeitar  = 0) A melhor predição é dada pela média amostral da variável Cuidados com a predição! ✓ Manter o valor da previsão de acordo com valores reais (no alcance da amostra). ✓ Usar a equação para a população da amostra. ✓ Verificar se a previsão é viável (datas, intervalos de valores, etc.)
  • 37.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução ŷ 1,595x 1,636 1,595.4 1,636 8,017 8 = + = + =  Qual seria o valor da variável y quando x = 4 ? Mudança marginal (a): variação de uma variável em relação a variação, em uma unidade, da outra variável emparelhada. No exemplo em que a = 1,595, temos que a taxa de y vai aumentar de 1,595 para cada aumento de uma unidade de x. Predições (estimativas)
  • 38.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução t(h)  (mg) 32.8 41.8 36.4 37.6 40.0 25.3 27.2 39.4 34.8 32.9 29.2 42.9 31.2 40.0 32.0 32.9 26.0 44.7 33.6 38.2 46.4 26.5 30.4 34.1 38.8 26.5 40.0 31.2 42.0 28.8 30.8 45.9 29.2 42.9 31.2 40.0 28.6 35.0 41.0 28.0 a) d) y = – 0,954x + 68,249 Mudança marginal (a): variação de uma variável em relação a variação, em uma unidade, da outra variável emparelhada. No exemplo em que a = -0,954, temos que a taxa de y vai reduzir de 0,954 mg para cada aumento de uma unidade de x.
  • 39.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Erro padrão da estimativa (se): ✓ Medida de como os pontos amostrais se afastam da reta de regressão; ✓ Isto é, é uma medida das distâncias entre os valores amostrais de y (observados) e ො 𝑦 (preditos); ✓ se maiores indicam pontos mais afastados da reta de regressão. No nosso exemplo: 2 2 o o e ˆ (y y) y b y a xy s n 2 n 2 − − − = = − −     e 519 1,636(69) 1,595(247) s 1,2306 10 2 − − = = − Predições (estimativas) Exemplo slide 20
  • 40.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Desvio não-explicado: Resíduo. Distância entre o ponto (x,y) e a reta de regressão → y − ො 𝑦 2 2 o o e ˆ (y y) y b y a xy s n 2 n 2 − − − = = − −     Erro padrão da estimativa (se):
  • 41.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Intervalo de predição para um y individual Dado um valor fixo de 𝑥𝑜, o intervalo de predição par um determinado y é: No exemplo: Vimos que quando x = 4 a melhor predição para y é 8. No entanto, ao se usar valores mais precisos de y, b e a, obtemos 8,017. Para significância de 95% determine o quão precisa é estimativa de y quando x = 4. ( ) ( ) 2 o e 2 2 2 n(x x) 1 ˆ ˆ y E y y E com E t s 1 n n x x  − −   + = + + −   ( ) ( ) 2 2 1 10(4 3,3) E 2,306(1,2306) 1 3,031 10 10 121 33 − = + + = − com n–2 graus de liberdade Se  = 0,05 → t/2 = 2,306 p/ 8 graus de liberdade
  • 42.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução 42 Exemplo 1: b) Calcule o coeficiente de correlação linear entre t(h) e (mg) c) Ajuste uma reta de regressão para a relação entre as variáveis  (dependente) e t (independente) d) Considerando a reta estimada dada no item (c), estime a produção média da toxina em uma exposição de 50 horas e) Determine o erro padrão da estimativa f) Estabeleça o intervalo de predição para o valor calculado no item d. t(h)  (mg) 32.8 41.8 36.4 37.6 40.0 25.3 27.2 39.4 34.8 32.9 29.2 42.9 31.2 40.0 32.0 32.9 26.0 44.7 33.6 38.2 46.4 26.5 30.4 34.1 38.8 26.5 40.0 31.2 42.0 28.8 30.8 45.9 29.2 42.9 31.2 40.0 28.6 35.0 41.0 28.0 a) d) y = – 0,954x + 68,249 y = – 0,954.50 + 68,249 = 20,549 Para 50h,  = 20,5 mg
  • 43.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução 43 Exemplo 1: b) Calcule o coeficiente de correlação linear entre t(h) e (mg) c) Ajuste uma reta de regressão para a relação entre as variáveis  (dependente) e t (independente) d) Considerando a reta estimada dada no item (c), estime a produção média da toxina em uma exposição de 50 horas e) Determine o erro padrão da estimativa f) Estabeleça o intervalo de predição para o valor calculado no item d. t(h)  (mg) 32.8 41.8 36.4 37.6 40.0 25.3 27.2 39.4 34.8 32.9 29.2 42.9 31.2 40.0 32.0 32.9 26.0 44.7 33.6 38.2 46.4 26.5 30.4 34.1 38.8 26.5 40.0 31.2 42.0 28.8 30.8 45.9 29.2 42.9 31.2 40.0 28.6 35.0 41.0 28.0 a) e) se = 3,838721
  • 44.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução 44 Exemplo 1: b) Calcule o coeficiente de correlação linear entre t(h) e (mg) c) Ajuste uma reta de regressão para a relação entre as variáveis  (dependente) e t (independente) d) Considerando a reta estimada dada no item (c), estime a produção média da toxina em uma exposição de 50 horas e) Determine o erro padrão da estimativa f) Estabeleça o intervalo de predição para o valor calculado no item d. e) se = 3,838721 ( ) ( ) ( ) ( ) 2 o e 2 2 2 2 2 n(x x) 1 E t s 1 n n x x 1 20(50 34,1) E 2,101.3,839 1 9,788 20 20 2382 20,549 9,788 y 20,549 9,788 10,760 y 30,337 7,0 681,6 ˆ 10,8 y 30, ˆ y E y y 3 E  − = + + − − = + + = − −   + ⎯⎯ → −   +   ⎯⎯ →     f)
  • 45.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Relação linear entre uma variável dependente y e duas ou mais variáveis independentes (x1, x2,..., xk) K → numero de variáveis independentes (preditoras) o 1 1 2 2 k k ŷ b b x b x ... b x = + + + + Regressão Múltipla
  • 46.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Relação linear entre uma variável dependente y e duas ou mais variáveis independentes (x1, x2,..., xk) K → numero de variáveis independentes (preditoras) 1, 2,..., k → coeficientes das variáveis independentes x1, x2,..., xk b1, b2,..., bk → estimativas amostrais de 1, 2,..., k o → valor de y quando todas as variáveis são nulas (parâmetro populacional) bo → estatística amostral e estimativa de o Complicado! Exige o uso de pacotes estatísticos! o 1 1 2 2 k k ŷ b b x b x ... b x = + + + + Regressão Múltipla
  • 47.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Coeficiente de determinação múltipla (R2): Avalia o ajuste da equação de regressão múltipla aos dados amostrais. Coeficiente de determinação múltipla ajustado: R2 modificado para levar em conta o número de variáveis e o tamanho amostral. k = número de variáveis independentes (x1, x2,..., xk) n = tamanho da amostra Valor P: Medida da significância da Eq. Reg. Múltipla 2 2 ( 1) 1 (1 ) [ ( 1)] ajustado n R R n k − = − − − + Regressão Múltipla
  • 48.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Exemplo regressão múltipla no python: Neste exemplo foram criados informações fictíciasde temperatura, concentração de material particulado(PM10) e dióxidode nitrogênio (NO2). Um índicede qualidadedo ar também fictíciofoi calculado em função destas 3 variáveis independentes. A regressão múltiplafoi calculadafazendo: variável y: qualidadedo ar variável x: temperatura, PM10 e NO2 import pandas as pd import numpy as np import statsmodels.api as sm import matplotlib.pyplot as plt import seaborn as sns # Gerar um conjunto de dados fictício np.random.seed(42) n = 100 temperatura = np.random.normal(20, 5, n) # Temperatura em graus Celsius pm10 = np.random.normal(30, 10, n) # PM10 em microgramas/m³ no2 = np.random.normal(25, 5, n) # NO2 em microgramas/m³ qualidade_ar = 50 - (0.5 * temperatura) - (0.2 * pm10) - (0.3 * no2) + np.random.normal(0, 5, n) # Criar um DataFrame dados = pd.DataFrame({ 'Temperatura': temperatura, 'PM10': pm10, 'NO2': no2, 'Qualidade_Air': qualidade_ar }) # Exibir as primeiras linhas do DataFrame print(dados.head()) # Definir as variáveis independentes (X) e dependentes (y) X = dados[['Temperatura', 'PM10', 'NO2']] y = dados['Qualidade_Air'] # Adicionar uma constante (intercepto) ao modelo X = sm.add_constant(X) # Ajustar o modelo de regressão múltipla modelo = sm.OLS(y, X).fit() # Exibir o resumo do modelo print(modelo.summary()) # Fazer previsões dados['Previsoes'] = modelo.predict(X) Este exemplo pode ser feito no Google Colab
  • 49.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução
  • 50.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Exemplo regressão múltipla no python: Neste exemplo foram criados informações fictíciasde temperatura, concentração de material particulado(PM10) e dióxidode nitrogênio (NO2). Um índicede qualidadedo ar também fictíciofoi calculadoem função destas 3 variáveisindependentes. A regressão múltiplafoi calculadafazendo: variável y: qualidadedo ar variável x: temperatura, PM10 e NO2 # Plot 3D das variáveis preditoras fig = plt.figure(figsize=(17, 10)) ax = fig.add_subplot(111, projection='3d') # Criar o gráfico 3D ax.scatter(dados['Temperatura'], dados['PM10'], dados['NO2'], c='b', marker='o', alpha=0.6) # Definir rótulos dos eixos ax.set_xlabel('Temperatura (°C)') ax.set_ylabel('PM10 (µg/m³)') ax.set_zlabel('NO2 (µg/m³)') ax.set_title('Plot 3D das Variáveis Preditoras') # Ajustar limites dos eixos ax.set_xlim(dados['Temperatura'].min() - 5, dados['Temperatura'].max() + 3) ax.set_ylim(dados['PM10'].min() - 5, dados['PM10'].max() + 3) ax.set_zlim(dados['NO2'].min() - 5, dados['NO2'].max() + 3) # Exibir o gráfico plt.show()
  • 51.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução x1: Temperatura em graus Celsius x2: PM10 em microgramas/m³ X3: NO2 em microgramas/m³ NO 2
  • 52.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Exemplo regressão múltipla no python: Neste exemplo foram criados informações fictíciasde temperatura, concentração de material particulado(PM10) e dióxidode nitrogênio (NO2). Um índicede qualidadedo ar também fictíciofoi calculadoem função destas 3 variáveisindependentes. A regressão múltiplafoi calculadafazendo: variável y: qualidadedo ar variável x: temperatura, PM10 e NO2 # Visualizar os resultados plt.figure(figsize=(10, 6)) sns.scatterplot(x=dados['Qualidade_Air'], y=dados['Previsoes']) plt.xlabel('Qualidade do Ar Real') plt.ylabel('Qualidade do Ar Prevista') plt.title('Qualidade do Ar Real vs Prevista') plt.plot([dados['Qualidade_Air'].min(), dados['Qualidade_Air'].max()], [dados['Qualidade_Air'].min(), dados['Qualidade_Air'].max()], color='red', linestyle='--') plt.grid() plt.show()
  • 53.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução
  • 54.
    © 2020 -Prof. Marcelo de Paula Corrêa – Proibida reprodução Este exemplo pode ser feito no Google Colab: https://colab.research.google.com/