Regressao simples

Regressão Linear Simples
V´ıctor Hugo Lachos Dávila
hlachos@ime.unicamp.br
Departamento Estat´ıstica-IMECC
Universidade Estadual de Campinas
Campinas, São Paulo, Brasil
Regressão Linear Simples – p. 1/6

Objetivos
Estudar a relação linear entre duas variáveis quantitativas.
Veja alguns exemplos:
Altura dos pais e altura dos ﬁlhos(Fig 1);

Objetivos
Renda semanal e despensas de consumo;

Objetivos
Variação dos salarios e taxa de desemprego (Fig 2);

Objetivos
Demanda dos productos de uma ﬁrma e publicidade;

Objetivos
Demanda dos productos de uma firma e publicidade;
Sob dois pontos de vista:
Explicitando a forma dessa relação: regressão.
Quantificando a força dessa relação: correlaç ão.

Observações
1) Regressão vs Causação
Uma relação estatística por sí propria não implica uma
causação
Para atribuir causação, devemos invocar a alguma
teoría (p.e. econômica)
2) Regressão (AR) vs Correlação (AC)
na AC há tratamento simetrico das variáveis
na AR a variável explanatoria é ﬁxa
na AC presupõe-se que as duas variaveís são
aleatórias

Dados Hipotéticos
Os dados se referem à renda semanal (X) e as despensas
de consumo (Y) (em US$), de uma população total de 60
familias. As 60 familias foram divididas em 10 grupos de
renda (Fig 3 e 4).
Y 80 100 120 140 160 180 200 220 240 260
55 65 79 80 102 110 120 135 137 150
60 70 84 93 107 115 136 137 145 152
65 74 90 95 110 120 140 140 155 175
X 70 80 94 103 116 130 144 152 165 178
75 85 98 108 118 135 145 157 175 180
- 88 - 113 125 140 - 160 189 185
- - - 115 - - - 162 - 191
Total 325 462 445 707 678 750 685 1043 966 1211
E(Y|X) 65 77 89 101 113 125 137 149 161 173

Função de Regressão Populacional
É razoável supor que a média da variável aleatória Y , está
relacionada com X pela seguinte relação
E(Y |X = x) = µY |x = β0 + β1x
onde βo e β1, são respectivamente, o intercepto e a
inclinação da reta e recebem o nome de coeﬁcientes de
regressão.

E(Y |X = x) = µY |x = β0 + β1x
regressão.
Cada valor individual Yi será determinado pelo valor médio
da função linear (µY |x) mais um termo que representa um
erro aleatório,

E(Y |X = x) = µY |x = β0 + β1x
regressão.
Cada valor individual Yi será determinado pelo valor médio
da função linear (µY |x) mais um termo que representa um
erro aleatório,
Yi = µY |x + εi = β0 + β1xi + εi,
onde εi é o erro estocástico que satisfaz E(εi|xi) = 0Regress˜ao Linear Simples – p. 5/6

Em geral, a variável resposta pode estar relacionada com
k variáveis explicativas X1, . . . Xk obedecendo à equação :
Y = β0 + β1X1 + . . . + βkXk + ε,
A equação é denominada modelo de regressão linear
múltipla.

Em geral, a variável resposta pode estar relacionada com
k variáveis explicativas X1, . . . Xk obedecendo à equação :
Y = β0 + β1X1 + . . . + βkXk + ε,
A equação é denominada modelo de regressão linear
múltipla.
O adjetivo "linear"é usado para indicar que o modelo é
linear nos parâmetros β1, . . . , βk e não porque Y é função
linear dos X’s. Por exemplo, uma expressão da forma
Y = βo + β1 log X1 + β2X3
2 + ε é um modelo de regressão
linear múltipla, mas o mesmo não acontece com a
equação Y = β0 + β1Xβ2
1 + β3X2
2 + ε.

Signiﬁcado do erro estocástico
Caráter vago da teoria
Falta de dados disponíveis
Variávies essenciais vs variáveis periféricas
Caráter aleatório da natureza
Principio da parcimônia
Forma funcional equivocada

Função de Regressão Amostral(FRA)
A tarefa agora é estimar a FRP com base em informações
amostrais
Yi = Yi + εi = β0 + β1Xi + εi, i = 1, . . . , n,
onde β0 e β1 são estimadores de β0 e β1, respectivamente
e εi = Yi − Yi a componente residual (Fig 5). Precisamos
formular uma regra ou método que torne tal aproximação o
mais próximo possível!
Exercicio: Resolva o problema 2.16 do livro texto.

Estimação: Método de MQO
Suponha que tem-se n pares de observações amostrais
(x1, y1), . . . , (xn, yn). A soma de quadrados dos desvios
das observações em relação à FRA é:
Q =
n
ε2
i =
n
(yi − β0 − β1xi)2
.
O método de mínimos quadrados ordinarios (MQO)
escolhe β1 e β2 (únicos) de forma que, para qualquer
amostra, Q é o menor possível. Após uma simple algebra
tem-se

ˆβ0 + ˆβ1
n
i=1
xi =
n
i=1
yi(1)
ˆβ0
n
i=1
xi + ˆβ1
n
i=1
x2
i =
n
i=1
xiyi.
As equações (1) recebem o nome de equações normais
de mínimos quadrados.

A solução dessas equações fornece os EMQ, ˆβ0 e ˆβ1,
dados por:
ˆβ0 = ¯y − ˆβ1 ¯x.
ˆβ1 =
n
i=1
xiyi −
nÈ
i=1
xi
nÈ
i=1
yi
n
n
i=1
x2
i −
nÈ
i=1
xi
2
n
.
onde ¯x =
nÈ
i=1
xi
n
e ¯y =
nÈ
i=1
yi
n
.

Notações especiais
Sxx =
n
i=1
(xi − ¯x)2
=
n
i=1
x2
i −
nÈ
i=1
xi
2
n
=
n
i=1
x2
i − n¯x2
,
Sxy =
n
i=1
(xi − ¯x)(yi − ¯y) =
n
i=1
(xi − ¯x)yi =
n
i=1
xiyi −
nÈ
i=1
xi
nÈ
i=1
yi
n
=
n
i=1
xiyi − n¯x¯y,
Syy =
n
i=1
(yi − ¯y)2
=
n
i=1
(yi − ¯y)yi =
n
i=1
y2
i −
nÈ
i=1
yi
2
n
=
n
i=1
y2
i − n¯y2
.
Os EMQ de β0 e β1 em termos da notação acima são:
ˆβ0 = ¯y − ˆβ1 ¯x, ˆβ1 =
Sxy
Sxx
, yi − ¯y = β1(xi − ¯x).

Observaçoes sobre os EMQ
Os EMQ dependem só de quantidades observáveis
São estimadores pontuais
A linha de regressão amostral é facilmente obtida
Yi = β0 + β1Xi
O valor médio do resíduo ǫi é zero
Os residuos ǫi são não correlacionados com Xi e Yi.

Exemplo 1
O gerente de uma cadeia de supermercados deseja
desenvolver um modelo com a ﬁnalidade de estimar as
vendas médias semanais (em milhares de dólares)
Y - Vendas semanais; e
X - Número de clientes.
Estas variáveis foram observadas em 20 supermercados
escolhidos aleatóriamente.
X 907 926 506 741 789 889 874 510 529 420
Y 11,20 11,05 6,84 9,21 9,42 10,08 9,45 6,73 7,24 6,12
X 679 872 924 607 452 729 794 844 1010 621
Y 7,63 9,43 9,46 7,64 6,92 8,95 9,33 10,23 11,77 7,41

Aplicação
Considerando os dados do exemplo 1
n = 20
n
i=1
xi = 907 + 926 + . . . + 621 = 14.623; ¯x = 731, 15
n
i=1
yi = 11, 20 + 11, 05 + . . . + 7, 41 = 176, 11; ¯y = 8, 8055
n
i=1
x2
i = (907)2
+ (926)2
+ . . . + (621)2
= 11.306.209
n
i=1
y2
i = (11, 20)2
+ (11, 05)2
+ . . . + (7, 41)2
= 1.602, 0971
n
i=1
xiyi = (907)(11, 20) + (11, 05)(926) . . . + (7, 41)(621) = 134.127, 90

Sxx =
n
i=1
x2
i − n(¯x)2
= 11.306.209 − 20(731, 15)2
= 614.603
Sxy =
n
i=1
xiyi − n(¯x)(¯y) = 134.127, 90 − 20(8, 8055)(731, 15) = 5.365, 08
Syy =
n
i=1
y2
i − n(¯y)2
= 1.609, 0971 − 20(8, 8055) = 51, 3605.
As estimativas dos parâmetros do MRLS são:
ˆβ1 =
Sxy
Sxx
=
5.365, 08
614.603
= 0, 00873; ˆβ0 = ¯y−ˆβ1 ¯x = 8, 8055−(0, 00873)(731, 15) = 2, 423
Portanto, a linha de regressão ajustada ou estimada para esses dados são:
ˆy = 2, 423 + 0, 00873x.

400 500 600 700 800 900 1000
67891011
Numero de clientes
Vendassemanais

Suponha que tem-se interesse em prever as vendas
semanais para um supermercado com 600 clientes.
No modelo de regressão ajustado basta substituir
X = 600, ísto é,
ˆy = 2, 423 + (0, 00873)(600) = 7, 661.

X = 600, ísto é,
ˆy = 2, 423 + (0, 00873)(600) = 7, 661.
A venda semanal de 7,661 mil dólares pode ser
interpretada com uma estimação da venda média semanal
verdadeira dos supermercados com X = 600 clientes,

X = 600, ísto é,
ˆy = 2, 423 + (0, 00873)(600) = 7, 661.
A venda semanal de 7,661 mil dólares pode ser
interpretada com uma estimação da venda média semanal
verdadeira dos supermercados com X = 600 clientes, ou
como uma estimação de uma futura venda de um
supermercado quando o número de clientes for X = 600.

Suposições do método de MQO
(i) E(ε|X) = 0, V ar(ε|X) = σ2
(desconhecido).
(ii) Os erros são não correlacionados
(iii) A variável explicativa X é controlada pelo
experimentador.
(iv) o modelo de regressão esta especiﬁcado da forma
correta
(v) n> número de variáveis explanatorias
(iv) não ha multicolinearidade perfeita

Propriedades dos EMQ
Se as suposições do método de MQO são válidas, então
E(ˆβ1) = β1, V ar(ˆβ1) = σ2
Sxx
= σ2
β1
.
E(ˆβ0) = β0, V ar(ˆβ0) = σ2 1
n
+ ¯x2
Sxx
= σ2
β0
.
Cov(ˆβ0, ˆβ1) = −σ2 ¯x
Sxx
Exercicio 2.

Estimação de σ2
Os resíduos,
ei = yi − ˆyi
são empregados na estimação de σ2
. A soma de
quadrados residuais ou soma de quadrados dos erros,
denotado por SQR é:
SQR =
n
i=1
e2
i =
n
i=1
(yi − ˆyi)2
Pode-se demonstrar que o valor esperado da soma de
quadrados dos residuais SQR, é dado por:(Exercício 3)
E(SQR) = (n − 2)σ2

Portanto, um estimador não viciado de σ2
, é
ˆσ2 =
SQR
n − 2
= QMR (Quadrado m´edio residual),
Uma fórmula mais conveniente para o cálculo da SQR é
dada por:
SQR = Syy − ˆβ1Sxy.
A estimativa de σ2
para o exemplo 1.
ˆσ2 =
SQR
n − 2
=
Syy − ˆβ1Sxy
n − 2
=
51, 3605 − (0, 00873)(5.365, 08)
20 − 2
= 0, 2513.

Previsão
Seja xp o valor para o qual deseja-se prever (ou projetar) o
valor médio E(Y |xp) e o valor individual de Y .
- Previsão média
Yi é um estimador não viciado de E[Y |xp], dado que
E(Yi) = E(ˆβ0 + ˆβ1xp) = β0 + β1xp = E(Y |xp)
V ar(Yi) = σ2
[1
n
+ (xi−¯x)2
sxx
]
- Previsão individual (Exercicio 4.)
V ar(Ypart) = σ2
[1 + 1
n
+ (xi−¯x)2
sxx
]
Na pratica sustituimos σ2
(desconhecido), pelo estimador
consistente σ2 Regress˜ao Linear Simples – p. 23/6

Coeficiente de Determinação (r2
)
O r2
é uma medida de qualidade do ajustamento. No caso
de regressão linear simples o coeficiente de determinação
é o quadrado do coeficiente de correlação.(Fig 6)
(Yi − ¯Y ) = (Yi − ˆYi − ¯Y + ˆYi)
n
i=1
(Yi − ¯Y )2
=
n
i=1
( ˆYi − ¯Y )2
+
n
i=1
(Yi − ˆYi)2
SQT = SQM + SQR
1 =
SQM
SQT
+
SQR
SQT
⇒ r2
=
SQM
SQT
=
s2
xy
sxxsyy

Teorema de Gauss-Markov
Se as suposições MQO são satisfeitas, os EMQ da classe
de estimadores lineares não viesados têm variância
mínima, isto é, são os melhores estimadores lineares não
viesados. (Prova)
Para que normalidade?
A estimação é a metade do caminho, a outra metade é
teste se hipóteses, para isto, suposições adicionais são
necessárias.
uma alternativa é considerar tamanhos de amostra o
suﬁcientemente grandes (estimação de máxima
verossimilhança)
a outra é supor que ǫi ∼ N(0, σ2
) (O modelo de
regressão normal simple clássico)

Propiedades dos EMQ sob Normalidade
A justiﬁcão teórica da premissa de normalidade é o TLC
β1 =
n
i=1
kiYi =
n
i=1
ki(β1 + β2xi + ǫi) ∼ N(.)
β0 ∼ N(β0, σ2
β0
), β1 ∼ N(β1, σ2
β1
),
(n − 1)σ2
/σ2
∼ χ2
(n − 2)
A distribuição de β0 e β1 é independente de σ2
(Exercicio 5.)
β0 e β1 têm variância mínima dentro de toda classe dos
estimadores não viesados, sejam ou não lineares (Rao)
Yi|Xi ∼ N(β0 + β1Xi, σ2
) Regress˜ao Linear Simples – p. 26/6

Teste de hipóteses sobre β1
Suponha que se deseje testar a hipótese de que a
inclinação é igual a uma constante representada por β1,0.
As hipóteses apropriadas são:
H0 : β1 = β1,0, vs H1 : β1 = β1,0
A estatística
T =
ˆβ1 − β1,0
ˆσ2/Sxx
,
tem distribuição t-Student com n − 2 graus de liberdade
sob H0 : β1 = β1,0. Rejeita-se H0 se
|Tobs| > tα/2, n−2.

Teste de hipóteses sobre β0
H0 : β0 = β0,0, vs H1 : β0 = β0,0
A estatística
T =
ˆβ0 − β0,0
ˆσ2[1
n
+ ¯x2
Sxx
]
que tem distribuição t-Student com n − 2 graus de
liberdade. Rejeitamos a hipóteses nula se |Tobs| > tα/2, n−2.

Teste de signiﬁcância do MRLS
H0 : β1 = 0, vs H1 : β1 = 0,
Deixar de rejeitar H0 : β1 = 0 é equivalente a concluir que
não há nenhuma relação linear entre X e Y.

Se H0 : β1 = 0 é rejeitado, implica que X tem importância
para explicar a variabilidade de Y

Exemplo
Teste de signiﬁcância para o MRLS para os dados do
exemplo 1, com α = 0, 05.
As hipóteses são H0 : β1 = 0, vs H1 : β1 = 0
Do exemplo tem-se:
ˆβ1 = 0, 00873, n = 20 Sxx = 614, 603, ˆσ2
= 0, 2512,
De modo que a estatística de teste, é:
Tobs =
ˆβ1
ˆσ2/Sxx
=
0, 00873
0, 2513/614.603
= 13, 65.
Como Tobs = 13, 65 > t0,03,18 = 2, 101, rejeita-se a hipótese
H0 : β1 = 0.

Análise de variância
Se a hipótese nula H0 : β1 = 0 é verdadeira, a estatística
F =
SQM/1
SQR/(n − 2)
=
QMreg
QMR
∼ F(1, n − 2),
Portanto, rejeita-se H0 se F0bs > Fα, 1, n−2.
As quantidades
QMreg = SQM
1
, (quadrado médio devido à regressão) e
QMR = SQR
(n−2)
( quadrado médio residual)

Tabela de ANOVA
Fonte de Soma de Graus de Quadrado
variação Quadrados Liberdade Médio F
Regressão SQM 1 QMreg QMreg
QMR
Residual SQR n − 2 QMR
Total SQT n − 1

Tabela de ANOVA
Regressão SQM 1 QMreg QMreg
QMR
Residual SQR n − 2 QMR
Total SQT n − 1
Exemplo: o procedimento de análise de variância para
testar se de fato existe relação linear entre o número de
clientes (X) e as vendas semanais (Y), no modelo
proposto para os dados do exemplo 1. Relembre que
Syy = 51, 3605, ˆβ1 = 0, 00873, Sxy = 5.365, 08 e n = 20.

A soma de quadrados da regressão é
SQM = ˆβ1Sxy = (0, 00873)(5.365, 08) = 46, 8371
enquanto a soma de quadrados dos residuais é:
SQR = SQT − ˆβ1Sxy = 51, 3605 − 46, 8371 = 4, 5234

SQM = ˆβ1Sxy = (0, 00873)(5.365, 08) = 46, 8371
SQR = SQT − ˆβ1Sxy = 51, 3605 − 46, 8371 = 4, 5234
A ANOVA para testar H0 : β1 = 0. Nesse caso, a
estatística de teste é
F0bs = QMreg/QMR = 46, 837148/0, 2512 = 186, 4536.

SQM = ˆβ1Sxy = (0, 00873)(5.365, 08) = 46, 8371
SQR = SQT − ˆβ1Sxy = 51, 3605 − 46, 8371 = 4, 5234
A ANOVA para testar H0 : β1 = 0. Nesse caso, a
estatística de teste é
F0bs = QMreg/QMR = 46, 837148/0, 2512 = 186, 4536.
Como Fobs = 186, 4536 > F0,05,1,18 = 4, 41 rejeita-se H0, ao
nível de signiﬁcância de 5%.

Tabela de ANOVA para Ex. 1
Regressão 46, 8371 1 46, 8371 186,45
Residual 4, 5234 18 0, 2513
Total 51, 3605 19

Intervalo de conﬁança para β0 e β1
Se para o MRLS é válida a suposição de que os
εi ∼ NID(0, σ2
), então
(ˆβ1 − β1)/ QMR/Sxx e (ˆβ0 − β0)/ QMR[
1
n
+
¯x2
Sxx
]
são variáveis aleatórias com distribuição t-Student com
n − 2 graus de liberdade.
Um intervalo de 100(1 − α)% de conﬁança para β1 :
IC(β1; 1−α) = ˆβ1 − tα
2
, n−2
QMR
Sxx
; ˆβ1 + tα
2
, n−2
QMR
Sxx

De modo similar, um intervalo de 100(1 − α)% de conﬁança
para β0 é dado por:
IC(β0; 1 − α) = ˆβ0 − tα
2
, n−2 QMR[
1
n
+
¯x2
Sxx
]
ˆβ0 + tα
2
, n−2 QMR[
1
n
+
¯x2
Sxx
]
A seguir é obtido um intervalo de 95% de conﬁança para a
inclinação do MRLS com os dados do exemplo 1,

Relembre que n = 20, ˆβ1 = 0, 00873, Sxx = 614, 603 e
QMR = 0, 2513. Para 1 − α = 0, 95, tem-se t0,025, 18 = 2, 101.
IC(β1; 0, 95) = (ˆβ1 − E ; ˆβ1 + E)
E = t0,025,18
QMR
Sxx
= 2, 101 0,2513
614.603
= 0, 00134
IC(β1; 0, 95) = (0, 00873 − 0, 00134; 0, 00873 + 0, 00134)
= (0, 00739; 0, 01007)

Intervalo de conﬁança para resposta
média
O interesse consiste em estimar um intervalo de conﬁança
para
E(Y |X = x0) = µY |x0 = β0 + β1x0.
Um estimador pontual de µY |x0 é
ˆµY |xo = ˆY = ˆβ0 + ˆβ1x0.
Se εi ∼ NID(0, σ2
) é válida, pode-se demonstrar
T =
ˆµY |xo − µY |xo
QMR 1
n
+ (x0−¯x)2
Sxx
∼ t(n − 2)

Int. conf. 100(1 − α)% para µY |x0
IC(ˆµY |x; 1 − α) = ˆµY |xo − E; ˆµY |xo + E
onde E = tα
2
, n−2 QMR[1
n
+ (x0−¯x)2
Sxx
]
Exemplo: Suponha que tem-se interesse em construir um
intervalo de 95% de conﬁança da venda, média, semanal
para todos supermercados com 600 clientes.

onde E = tα
2
, n−2 QMR[1
n
+ (x0−¯x)2
Sxx
]
No modelo ajustado ˆµY |x0 = 2, 423 + 0, 00873x0. Para
x0 = 600, obtém-se ˆµY |x0 = 7, 661.

onde E = tα
2
, n−2 QMR[1
n
+ (x0−¯x)2
Sxx
]
x0 = 600, obtém-se ˆµY |x0 = 7, 661. Também,
¯x = 731, 15, QMR = 0, 2513, Sxx = 614.603, n = 20
e 1 − α = 0, 95 ⇒ t0,05,18 = 2, 101.

onde E = tα
2
, n−2 QMR[1
n
+ (x0−¯x)2
Sxx
]
x0 = 600, obtém-se ˆµY |x0 = 7, 661. Também,
¯x = 731, 15, QMR = 0, 2513, Sxx = 614.603, n = 20
e 1 − α = 0, 95 ⇒ t0,05,18 = 2, 101.
E = 2, 101 0, 2513[ 1
20
+ (600−731,15)2
614.603
] = 0, 292

IC(µY |x0 ; 0, 95) = (7, 661 − 0, 292; 7, 661 + 0, 292)
= (7, 369; 7, 935)

Previsão de novas observações
Uma aplicação muito importante de um modelo de
regressão é a previsão de novas ou futuras observações
de Y, (Y0) correspondente a um dado valor da variável
explicativa X, x0, então
ˆY0 = ˆβ0 + ˆβ1x0
é o melhor estimador pontual de Y0.
Um intervalo de 100(1 − α)% de conﬁança para uma futura
observação é dado por:
IC(Y0; 1 − α) = ( ˆY − E; ˆY + E)
onde E = tα
2
, n−2 QMR[1 + 1
n
+ (x0−¯x)2
Sxx
]

Exemplo
Suponha agora, tem-se interesse em encontrar um
intervalo de previsão de 95% das vendas semanais de um
supermercado com 600 clientes.
Considerando os dados do exemplo 1, ˆY = 7, 661 e o
intervalo de predição é:
E = 2, 101 0, 2513[1 + 1
20
+ (600−731,15)2
614.603
] = 1, 084
IC(Y0; 0, 95) = (7, 661 − 1, 084; 7, 661 + 1, 084)
= (6, 577; 8, 745).

Bandas de conﬁança do 95% para µY |x0 (CI) e
Y0 (ICP)

Adequação do modelo de regressão
Análise residual,

Análise residual,
Coeﬁciente de determinação

Análise residual,
Os resíduos de um modelo de regressão são deﬁnidos
como
ei = yi − ˆyi, i = 1, . . . , n
onde yi é uma observação real de Y e ˆyi é o valor
correspondente estimado através do modelo de regressão.

Análise residual,
Os resíduos de um modelo de regressão são deﬁnidos
como
ei = yi − ˆyi, i = 1, . . . , n
onde yi é uma observação real de Y e ˆyi é o valor
correspondente estimado através do modelo de regressão.
Resíduos padronizados
di =
ei
√
QMR
, i = 1, . . . , n

Gráﬁco de resíduos do exemplo 1

Exemplo: Coeﬁciente de
Determinação
Para os dados dos supermercados do exemplo1,
determinar R2
.

Determinação
determinar R2
. Da deﬁnição tem-se:
R2
=
SQM
SQT
=
46, 8371
51, 3605
= 0, 912

Determinação
determinar R2
. Da deﬁnição tem-se:
R2
=
SQM
SQT
=
46, 8371
51, 3605
= 0, 912
Esse resultado signiﬁca que o modelo ajustado explicou
91,2% da variação na variável resposta Y (vendas
semanais). Isto é, 91,2% da variabilidade de Y é explicada
pela variável regressora X (número de clientes).

Analise de Correlação
Suponha que se deseja desenvolver um modelo de
regressão que relacione a resistência ao corte dos pontos
de soldadura com o diâmetro dos mesmos. Neste caso,
não é possível controlar o diâmetro de soldadura. O que
pode ser feito é selecionar ao acaso n pontos de
soldadura e observar o diâmetro (Xi) e a resistência ao
corte (Yi) de cada um deles. Portanto, (Xi, Yi) são
variáveis aleatórias distribuídas de maneira conjunta.

Suponha que a distribuição conjunta de Xi e Yi tenha uma
distribuição normal bivariada cuja função de densidade é
dada por

dada por
f(x, y) =
1
2πσ1σ2 1 − ρ2
exp
1
2(1 − ρ2)
x − µ1
σ1
2
+
y − µ2
σ2
2
− 2ρ
x − µ1
σ1
y − µ2
σ2

dada por
f(x, y) =
1
2πσ1σ2 1 − ρ2
exp
1
2(1 − ρ2)
x − µ1
σ1
2
+
y − µ2
σ2
2
− 2ρ
x − µ1
σ1
y − µ2
σ2
onde µ1 e σ2
1 são a média e variância de X e µ2 e σ2
2 são a
média e variância de Y e, ρ é coeficiente de correlaç ão entre X
e Y.

A densidade condicional de Y para um valor dado X = x é
dado por (exercicio 5.)
f(y|x) =
1
√
2πσY |x
exp



−
1
2
yi − β0 − β1x
σ2
Y |x
2




f(y|x) =
1
√
2πσY |x
exp



−
1
2
yi − β0 − β1x
σ2
Y |x
2



onde β0 = µ2 − µ1ρσ2
σ1
, β1 = σ2
σ1
ρ e σ2
Y |x = σ2
2(1 − ρ2
)

Estimadores de β0, β1 e ρ
ˆβ0 = ¯Y − ˆβ1
¯X

ˆβ0 = ¯Y − ˆβ1
¯X
ˆβ1 =
Èn
i=1 Yi(Xi− ¯X)
Èn
i=1(Xi− ¯X)2 = SXY
SXX

ˆβ0 = ¯Y − ˆβ1
¯X
ˆβ1 =
Èn
i=1 Yi(Xi− ¯X)
Èn
i=1(Xi− ¯X)2 = SXY
SXX
ˆρ = r =
nÈ
i=1
Yi(Xi− ¯X)
× nÈ
i=1
(Xi− ¯X)2
nÈ
i=1
(Yi− ¯Y )2
= SXY√
SXX SY Y

ˆβ0 = ¯Y − ˆβ1
¯X
ˆβ1 =
Èn
i=1 Yi(Xi− ¯X)
Èn
i=1(Xi− ¯X)2 = SXY
SXX
ˆρ = r =
nÈ
i=1
Yi(Xi− ¯X)
× nÈ
i=1
(Xi− ¯X)2
nÈ
i=1
(Yi− ¯Y )2
= SXY√
SXX SY Y
ˆβ1 = SY Y
SXX
1/2
r

Teste de hipóteses
H0 : ρ = 0 vs H1 : ρ = 0
A estatística de teste apropriada é
T =
r
√
n − 2
√
1 − r2
∼
sob H0 t(n − 2)

Teste de hipóteses
H0 : ρ = 0 vs H1 : ρ = 0
A estatística de teste apropriada é
T =
r
√
n − 2
√
1 − r2
∼
sob H0 t(n − 2)
A hipótese nula deverá ser rejeitada se |Tobs| ≥ tα/2, n−2.
Esse teste é equivalente ao teste de hipóteses H0 : β1 = 0.

H0 : ρ = ρ0 vs H1 : ρ = ρ0
onde ρ0 = 0.

H0 : ρ = ρ0 vs H1 : ρ = ρ0
onde ρ0 = 0.
Para amostras de tamanho moderado grande (n ≥ 30), a
estatística

H0 : ρ = ρ0 vs H1 : ρ = ρ0
onde ρ0 = 0.
Para amostras de tamanho moderado grande (n ≥ 30), a
estatística
Zr = arctanh r =
1
2
ln
1 + r
1 − r
tem distribuição aproximadamente normal com média
µZr = arctanh ρ =
1
2
ln
1 + ρ
1 − ρ
e variância σ2
Zr
= (n − 3)−1
.

A estatística de teste apropriada é:
Z = (arctanh r − arctanh ρ0) (n − 3)1/2
.

A estatística de teste apropriada é:
Z = (arctanh r − arctanh ρ0) (n − 3)1/2
.
Se H0 : ρ = ρ0 é verdadeira, a estatística Z tem,
aproximadamente, distribuição normal padrão. Portanto,
H0 deverá ser rejeitada se |Zobs| ≥ zα/2.

Intervalo de confiança para ρ
Um intervalo aproximado de 100(1 − α)% de confiança
para o coeficiente de correlação ρ, que é dado por:
IC(ρ; 1 − α) = tanh arctanh r −
zα/2
√
n − 3
;
tanh arctanh r +
zα/2
√
n − 3
,
onde tanhw = ew−e−w
ew+e−w .

Exemplo 2
Suponha que se tenha interesse em medir a força da
relação linear de dois produtos diferentes com relação ao
preço em várias cidades do mundo.
Y - Preço de uma libra de frango; e
X - Preço de uma caixa de suco.

Caixa com seis Uma libra
Cidade sucos (X) de frango (Y )
Frankfurt 3,27 3,06
Hong Kong 2,22 2,34
Londres 2,28 2,27
Manila 3,04 1,51
México 2,33 1,87
Nova York 2,69 1,65
París 4,07 3,09
Sidney 2,78 2,36
Tokyo 5,97 4,85

Dos dados da tabela são obtidos os valores seguintes:
n = 9;
n
i=1
Xi = 28, 65; ¯X = 3, 183;
n
i=1
X2
i = 28, 65 = 102
SXX = 11, 4594;
n
i=1
Yi = 23, 00; ¯Y = 2, 5566;
n
i=1
Y 2
i = 67
SY Y = 8, 3522;
n
i=1
XiYi = 81, 854; SXY = 8, 6437
r =
SXY
√
SXXSY Y
=
8, 6437
(11, 4594)(8, 3522)
= 0, 883.

H0 : ρ = 0 (não relação linear entre X e Y )
H1 : ρ = 0 (há relação linear entre X e Y )
O valor calculado para a estatística do teste foi
Tobs =
r
√
n − 2
√
1 − r2
=
0, 883
√
9 − 2
1 − (0, 883)2
= 4, 98.
Para α = 0, 05, tem-se que t0,025,7 = 2, 365 < Tobs = 4, 98,
logo, rejeita-se H0 : ρ = 0 ao nível de signiﬁcância de
α = 5%.

Regressao simples

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (18)

Semelhante a Regressao simples

Semelhante a Regressao simples (20)

Regressao simples