2. 6. Regressões
Estabelecer relações, para fazer predições.
Y = f (x1, x2, ..., xn)
Variáveis independentes ou explicativas
Variável dependente
Modelo:
Y = 0 + 1X1 + 2X2 + ... + pXp +E Objetivo: Estimar parâmetro
=
p
...
1
0
Testes de hipóteses: F, R2
Dados quantitativos Regressão
Dados qualitativos Teste de média
Variáveis independentes : devem ser fixas e desprovidas de erro
Exemplo: Doses: 5, 10 e 15
se quiser só estas doses qualitativo Teste de média
se tiver interesse no intervalo (6, 7,...) quantitativos regressão
Ao declarar a regressão significativa (F sig.) é
declarável que todos pontos são diferentes
significativamente, por isto não precisa fazer
teste de média.
3. Se 1=0 não existe relação então
não tem regressão
Y = 0 + 1X1 +Ei
1>0 1=0 1<0
Modelo bom: R2, desvio em relação a reta
Na regressão linear simples:
R2 (coeficiente de determinação) = r2 (coeficiente de correlação, r)
100
Re
2
x
SQ
SQ
R
Total
g
=
)
(
)
(
)
,
(
y
V
x
V
y
x
Cov
r =
6.1 Regressão Linear Simples
Sendo p o número de coeficientes (b0 e b1 na reg simples)
2 2
.
1
1 ( )(1 )
ajust
n
R R
n p
−
= − −
−
4. Y = 0 + 1X1 +Ei
)
(
)
,
(
1
x
V
y
x
Cov
=
6.1 Regressão Linear Simples
FV GL SQ QM F
Regressão 1 SQReg QMR QMR/QMD
Desvio n-2 SQDes QMD
Total n -1 SQTo
X
Y
o 1
ˆ
−
=
1
1
ˆ ( )( )
n
i i
i
X
S R X Y Y
Q eg
=
− −
=
1
2
1
n
Yi
n i
Yi n
i
SQTo
=
−
=
=
SQDes = SQTo - SQReg
5. Y = 0 + 1X1 +Ei
6.1 Regressão Linear Simples
% U.R. (X) 20 30 40 50
% germinação (Y) 92 94 93 96
Dados envolvendo % de germinação de sementes com diferentes Umidade relativa do ar de secagem.
Y X y = Y-ഥ
𝒀 x = X- ഥ
𝑿 y2 x2 xy
𝒀 = 𝟖𝟗. 𝟗 + 𝟎. 𝟏𝟏𝑿 e = Y -
𝒀
92 20 -1.75 -15 3.0625 225 26.25 92.1 -0.1
94 30 0.25 -5 0.0625 25 -1.25 93.2 0.8
93 40 -0.75 5 0.5625 25 -3.75 94.3 -1.3
96 50 2.25 15 5.0625 225 33.75 95.4 0.6
ഥ
𝒀 = 93.75 ഥ
𝑿 = 35 ∑y2
i = 8.75 ∑x2
i = 500 ∑xiyi =55
𝐵1 =
ሻ
𝑐𝑜𝑣(𝑥, 𝑦
ሻ
𝑣(𝑥
=
σ 𝑥𝑖𝑦𝑖
σ 𝑥𝑖
2 =
55
500
= 0.11
𝐵0 = ത
𝑌 −
𝐵1
ത
𝑋 = 93.75 − 0.11𝑥35 = 89.9
Equação de regressão estimada:
𝑌=89.9 +0.11X.
6. Y = 0 + 1X1 +Ei
6.1 Regressão Linear Simples
1
1
ˆ 0.11 55 6.05
n
i i
i
SQRe x y x
g
=
=
= =
2
1
8.75
n
yi
i
SQTo
=
= =
Y X y = Y-ഥ
𝒀 x = X- ഥ
𝑿 y2 x2 xy
𝒀 = 𝟖𝟗. 𝟗 + 𝟎. 𝟏𝟏𝑿 e = Y -
𝒀
92 20 -1.75 -15 3.0625 225 26.25 92.1 -0.1
94 30 0.25 -5 0.0625 25 -1.25 93.2 0.8
93 40 -0.75 5 0.5625 25 -3.75 94.3 -1.3
96 50 2.25 15 5.0625 225 33.75 95.4 0.6
ഥ
𝒀 = 93.75 ഥ
𝑿 = 35 ∑y2
i = 8.75 ∑x2
i = 500 ∑xiyi =55
SQDes = SQTo - SQReg= 8.75 - 6.05 =2.7
FV GL SQ QM F
Regressão 1 6.05 6.05 4.48ns
Desvio 2 2.7 1.35
Total 3 8.75
2 100 Re 100 6.05
69.14%
8.75
xSQ g x
R
SQTo
= = =
𝑅𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜
2
= 1 −
𝑛 − 1 1 − 𝑅2
𝑛 − 𝑝
= 1 −
4 − 1 1 − 0.6914
4 − 2
= 0.5371 = 53.71%
Equação de regressão estimada:
𝑌=89.9 +0.11X.
(Na Reg. simples é n-2, nas demais n-p)
9. ==========================================================
Programa GENES REGRESSÃO LINEAR SIMPLES
Arquivo de dados C:exemplosexemplo6Genes.txt
Número de variáveis 2
Data 05-26-2019
==========================================================
REGRESSÃO LINEAR SIMPLES
Variável independente : x2
Variável dependente : x1
____________________________________________________________________________________________________
FV GL SQ QM F Probabilidade(%)
____________________________________________________________________________________________________
REGRESSÃO 1 6.05 6.05 4.481481 16.847876
DESVIO 2 2.7 1.35
TOTAL 3 8.75
____________________________________________________________________________________________________
ESTIMATIVAS E VARIÂNCIAS DOS COEFICIENTES DE REGRESSÃO
____________________________________________________________________________________________________
INTERCEPTO ß0 = 89.9
INCLINAÇÃO ß1 = .11
V(ß0) = 3.645
V(ß1) = .0027
t (Ho:ß1=0) = 2.116951
Probab(Ho:ß1=0) = 16.913914 %
t (Ho:ß1=1) = -17.128058
Probab(Ho:ß1=1) = .211408 %
Viés = -.89
Cov(ß0,ß1) = -.0945
COEFICIENTE DE DETERMINAÇÃO (%) = 69.142857
____________________________________________________________________________________________________
x2 (X) x1 (Y) x1 estimado
____________________________________________________________________________________________________
20.0 92.0 92.1
30.0 94.0 93.2
40.0 93.0 94.3
50.0 96.0 95.4
____________________________________________________________________________________________________
Y = 0 + 1X1 +Ei
6.1 Regressão Linear Simples
n.s.
Se Prob < 5%: * “p-value”
10. 6.2 Regressão Múltipla
Y = 0 + 1X1 + 2X2 + 3X3 +... pXp +Ei
envolve mais de uma variável independente
FV GL SQ QM F
Reg p SQR QMR QMR/QMD
desvio n-p-1 SQD QMD
Total n-1 SQtotal
S.E.N.: Y=X + E X’X =x’Y = (X’X)-1 X’Y determinante ≠ 0
R2 ajustado: leva em consideração o GL e o núm. de variáveis
Usado na comparação entre 2 modelos com números diferentes de variáveis
Ao adicionar uma variável e o R2
ajust diminuir, variável deve ser excluída do modelo
Para aumentar R2 sem incluir novas variáveis, deve-se trocar o modelo
Regressão polinomial simples, múltipla
Regressão polinomial conjunta
Regressão múltipla stepwise
Fcalc > Ftab: Reg Sign
Ftab(GLn, GLd, α)
11. 6.2 Regressão Múltipla
Y = 0 + 1X1 + 2X2 + 3X3 +... pXp +Ei
envolve mais de uma variável independente
=
n
2
1
Y
...
Y
Y
Y
=
pn
n
2
n
1
2
p
22
12
1
p
21
11
X
...
X
X
1
...
...
...
...
...
X
...
X
X
1
X
...
X
X
1
X
=
p
1
o
...
=
n
2
1
...
Sob forma matricial, têm-se:
Y: é um vetor de observações;
X: é uma matriz de quantidades fixas conhecidas, não estando associada a erros experimentais.
: é o vetor de parâmetros desconhecidos a ser estimado na análise de regressão.
: vetor de erros aleatórios, que contém um conjunto de variáveis desconhecidas que exercem
influência sobre a variável principal.
Objetivo: Estimar todos os β do modelo
Solução: Y
'
X
)
X
'
X
(
ˆ 1
−
=
12. 6.2 Regressão Múltipla
Y = 0 + 1X1 + 2X2 + 3X3 +... pXp +Ei
envolve mais de uma variável independente
=
n
2
1
Y
...
Y
Y
Y
=
pn
n
2
n
1
2
p
22
12
1
p
21
11
X
...
X
X
1
...
...
...
...
...
X
...
X
X
1
X
...
X
X
1
X
=
p
1
o
...
=
n
2
1
...
Sob forma matricial, têm-se:
Objetivo: Estimar todos os β do modelo
ANOVA:
FV GL SQ QM F
Regressão p QMR QMR/QMD
Desvio n-p-1 QMD
Total n -1
ˆ ' '
X Y C
SQReg
= −
' '
ˆ '
Y Y X Y
SQDes
= −
C
Y
'
Y
SQTo −
=
n
Y
C
2
.
=
13. 6.2 Regressão Múltipla
Y = 0 + 1X1 + 2X2 + 3X3 +... pXp +Ei
envolve mais de uma variável independente
% U.R. (X1) 20 30 40 50
Temperatura (ºC) (X2) 5 15 10 20
% germinação (Y) 92 94 93 96
Dados envolvendo % de germinação de sementes com diferentes umidade relativa do ar de secagem e temperaturas.
1 1 2 2
i o i i i
Y X X
= + + +
92
94
93
96
Y
=
1 20 5
1 30 15
1 40 10
1 50 20
X
=
0
1
2
=
1
2
3
4
=
1
2.75 0.0833 0.0333 375 90.25
ˆ ( ' ) ( ' ) 0.0833 0.0055 0.0088 13180 0.0166
0.0333 0.0088 0.0222 4720 0.2333
X X X Y
−
−
= = − − =
−
14. 6.2 Regressão Múltipla
% U.R. (X1) 20 30 40 50
Temperatura (ºC) (X2) 5 15 10 20
% germinação (Y) 92 94 93 96
1 1 2 2
i o i i i
Y X X
= + + +
1
2.75 0.0833 0.0333 375 90.25
ˆ ( ' ) ( ' ) 0.0833 0.0055 0.0088 13180 0.0166
0.0333 0.0088 0.0222 4720 0.2333
X X X Y
−
−
= = − − =
−
2 2
. 375
35156.25
4
Y
C
n
= = =
ˆ
Re ' ' 35164.75 35156.25 8.5
SQ g X Y C
= − = − =
ˆ
' ' ' 35165 35164.75 0.25
SQDesvio Y Y X Y
= − = − =
' 35165 35156.25 8.75
SQTo Y Y C
= − = − =
FV GL SQ QM F
Regressão 2 8.5 4.25 17ns
Desvio 1 0.25 0.25
Total 3 8.75
2 100 Re 100 8.5
97.14%
8.75
SQ g x
R
SQTo
= = =
𝑅𝑎𝑗𝑢𝑠𝑡𝑎𝑑𝑜
2
= 1 −
𝑛 − 1
𝑛 − 𝑝
1 − 𝑅2
= 1 −
4 − 1
4 − 2
1 − 0.9712
= 0.9143 = 91.43%
15. 6.2 Regressão Múltipla
% U.R. (X1) 20 30 40 50
Temperatura (ºC) (X2) 5 15 10 20
% germinação (Y) 92 94 93 96
1 1 2 2
i o i i i
Y X X
= + + +
1
2.75 0.0833 0.0333 375 90.25
ˆ ( ' ) ( ' ) 0.0833 0.0055 0.0088 13180 0.0166
0.0333 0.0088 0.0222 4720 0.2333
X X X Y
−
−
= = − − =
−
0 0
H :β 0
=
ˆ 90.25 0
108.84
0.25 2.75
i i
ii
t
QMDxC x
− −
= = =
H :β 0
0 1=
ˆ 0.0166 0
0.4476
0.25 0.0055
i i
ii
t
QMDxC x
− −
= = =
H :β 0
0 2 = ˆ 0.2333 0
3.13
0.25 0.0222
i i
ii
t
QMDxC x
− −
= = =
O teste de hipótese para os coeficientes de regressão:
Cii: Elemento da Diagonal principal da matriz (X’X)-1
O valores encontrados são comparados com os valores Ttabelado(0.025, 1)= 12.706. Como valores de t para os parâmetros
1 e 2 são menores que os valores tabelado, então não rejeita H0, e estes coeficiente são estatisticamente iguais a zero.
18. 6.2 Regressão Múltipla
1 1 2 2
i o i i i
Y X X
= + + +
==========================================================
Programa GENES REGRESSÃO MÚLTIPLA
Arquivo de dados c:exemplosexemplo7Genes.txt
Número de variáveis 3
Data 05-27-2019
==========================================================
Análise da variável : x1
ANÁLISE DE REGRESSÃO MÚLTIPLA
____________________________________________________________________________________________________
FV GL SQ QM F PROBABILIDADE
____________________________________________________________________________________________________
REGRESSÃO 2 8.5 4.25 17. .16903139
DESVIO 1 .25 .25
____________________________________________________________________________________________________
TOTAL 3 8.75
____________________________________________________________________________________________________
R²(%) 97.14285714
R² ajustado(%) 91.42857143
____________________________________________________________________________________________________
ESTIMATIVAS DOS COEFICIENTES DE REGRESSÃO
____________________________________________________________________________________________________
NOME COEFICIENTE(ß) DESVIO t PROBAB(*)
____________________________________________________________________________________________________
x2 .01666667 .0372678 .4472136 .72478937
x3 .23333333 .0745356 3.13049517 .20557304
CONSTANTE 90.25
____________________________________________________________________________________________________
(*) A PROBABILIDADE FOI OBTIDA PARA O TESTE t BILATERAL
19. 6.3 Regressão Polinomial
FV GL SQ QM F
Reg p SQR QMR QMR/QMD
desvio n-p-1 SQD QMD
Total n-1 SQtotal
S.E.N.: Y=X + E X’X =x’Y = (X’X)-1 X’Y determinante ≠ 0
Fcalc > Ftab: Reg Sign
Ftab(GLn, GLd, α)
Nem sempre os dados são possíveis de ser ajustados através de uma equação de reta, pois eles podem
possuir um comportamento polinomial, seja por exemplo x2, x3.
y=0+1x+2x2+⋯+kxk + .
% U.R. (X) 20 30 40 50
% germinação (Y) 92 94 93 96
Dados envolvendo % de germinação de sementes com diferentes Umidade relativa do ar de secagem.
20. 6.3 Regressão Polinomial
y=0+1x+2x2+⋯+kxk + .
% U.R. (X) 20 30 40 50
% germinação (Y) 92 94 93 96
92
94
93
96
Y
=
1 20 400
1 30 900
1 40 1600
1 50 2500
X
=
0
1
2
=
1
2
3
4
=
1
92.6500
ˆ ( ' ) ( ' ) 0.0650
0.0025
X X X Y
−
= = −
Sistema de Equações Normais: Y=X + E X’X =X’Y = (X’X)-1 X’Y
^
2 2
. 375
35156.25
4
Y
C
n
= = =
ˆ
Re ' ' 35162.55 35156.25 6.3
SQ g X Y C
= − = − =
ˆ
' ' ' 35165 35162.55 2.45
SQDesvio Y Y X Y
= − = − =
' 35165 35156.25 8.75
SQTo Y Y C
= − = − =
FV GL SQ QM F
Regressão 2 6.3 3.15 1.286ns
Desvio 1 2.45 2.45
Total 3 8.75
X X2
21. 6.3 Regressão Polinomial
y=0+1x+2x2+⋯+kxk + .
% U.R. (X) 20 30 40 50
% germinação (Y) 92 94 93 96
FV GL SQ QM F
Regressão 2 6.3 3.15 1.286ns
Desvio 1 2.45 2.45
Total 3 8.75
2 100 Re 100 6.3
72%
8.75
SQ g x
R
SQTo
= = =
22. 6.3 Regressão Polinomial
y=0+1x+2x2+⋯+kxk + .
% U.R. (X) 20 30 40 50
% germinação (Y) 92 94 93 96
Desmembrar F.V. Regressão: Via polinômios ortogonais
σ 𝑌 = 375 ; σ 𝑌𝑖
2
= 35165; 𝐶 =
(σ 𝑌ሻ
2
𝑛
=
3752
4
= 35156.25
𝑆𝑄𝑇𝑜𝑡𝑎𝑙 = 𝑌𝑖
2
− 𝐶 = 35165 − 35156.25 = 8.75
% U.R. (X) % germinação (Y) Coeficientes (c1) Coeficientes (c2)
20 92 -3 1
30 94 -1 -1
40 93 1 -1
50 96 3 1
K= 20 K= 4
Coeficientes para a decomposição da Regressão na fonte de variação linear e quadrático. Valores
extraídos do livro de Pimentel-Gomes (2000) para n=4.
23. 6.3 Regressão Polinomial
y=0+1x+2x2+⋯+kxk + .
σ 𝑌 = 375 ; σ 𝑌𝑖
2
= 35165; 𝐶 =
(σ 𝑌ሻ
2
𝑛
=
3752
4
= 35156.25; 𝑆𝑄𝑇𝑜𝑡𝑎𝑙 = σ 𝑌𝑖
2
− 𝐶 = 35165 − 35156.25 = 8.75
% U.R. (X) % germinação (Y) Coeficientes (c1) Coeficientes (c2)
20 92 -3 1
30 94 -1 -1
40 93 1 -1
50 96 3 1
K= 20 K= 4
𝑆𝑄𝐿𝑖𝑛𝑒𝑎𝑟 =
(σ 𝐶1𝑌ሻ2
𝑘1
=
[ −3𝑥92 + −1𝑥94 + 1𝑥93 + 3𝑥96 ]2
20
=
112
20
= 6.05
𝑆𝑄𝑄𝑢𝑎𝑑𝑟á𝑡𝑖𝑐𝑎 =
(σ 𝐶2𝑌ሻ2
𝑘2
=
[ 1𝑥92 + −1𝑥94 + −1𝑥93 + 1𝑥96 ]2
4
=
12
4
= 0.25
FV GL SQ QM F
Regressão 2 6.3 3.15 1.286ns
Reg. Linear 1 6.05 6.05 2.47 ns
Reg. quadrática 1 0.25 0.25 0.10 ns
Resíduo 1 2.45 2.45
Total 3 8.75
Se a Regressão for significativa, é necessário fazer o desdobramento.
Inicialmente faria o desdobramento em Regressão Linear e o restante seria desvio da Regressão.
Testa o desvio da regressão com o resíduo, se esse fosse significativo, seria necessário continuar os desdobramentos até que encontrasse um desvio da
regressão não significativo.