Econometria modelos de_regressao_linear

Modelos de
Regressão Linear
Prof. José Francisco
professorjfmp@hotmail.com
Econometria

Regressão
Objetivo: Estabelecer uma função matemática que descreva
a relação entre uma variável contínua (variável explicada ou
dependente) e uma ou mais variáveis explicativas ou
independentes.
y = f(x1,x2,...,xK) + εεεε
y denota a variável dependente.
x1,x2,...,xK denotam as variáveis independentes.
f(x1,x2,...,xK) descreve a variação sistemática
εεεε representa a variação não sistemática (erro aleatório)
Modelos de regressão (função f) podem ser lineares ou não
lineares.
A função f não é conhecida e deve ser inferida a partir
das observações das variáveis y, x1,x2,...,xk.

Regressão Linear
Técnica estatística que pode ser usada para analisar a relação entre uma
única variável dependente (explicada) e um conjunto de variáveis
independentes (explicativas).
O objetivo da análise de regressão linear consiste em identificar uma
equação linear que permita prever o valor da variável dependente em
função dos valores conhecidos das variáveis independentes.
Regressão linear simples: apenas uma variável independente.
Exemplo:
variável dependente = vendas
variável independente = despesas com propaganda
Regressão linear múltipla: duas ou mais variáveis independentes.
Exemplo:
variável dependente = preço do imóvel
variáveis independentes = área, nº de quartos, nº de banheiros, idade

Motivação (HANKE & WICHERN, 2006)
Uma empresa transportadora deseja estimar o custo de agregar
carga a um caminhão parcialmente cheio.
A empresa acredita que o único incremento de custo, decorrente da
agregação de carga, é o custo adicional de combustível, pois o
rendimento (milhas por galão) seria menor.
Admite-se que a frota da transportadora é formada por caminhões
idênticos.
No período 2009-2012 foram realizadas 5.428 viagens e uma
amostra aleatória de 40 viagens foi tomada. Na tabela ao lado são
apresentados os pesos e os rendimentos (milhas/galão) das 40
viagens selecionadas na amostra.
Um incremento no
peso reduz o
rendimento
A relação entre as
variáveis não é
exata (estocástica)
Diagrama de
dispersão
representação gráfica
que permite
visualizar a
relação/associação
entre duas variáveis

Motivação
A boa aderência da nuvem de pontos ao redor de um reta imaginária indica
que a relação entre as duas variáveis pode ser aproximada por uma relação
linear.
A essência da relação entre o peso e o rendimento pode ser expressa por uma
reta. Seja Y o rendimento em milhas/galão e X o peso da carga (1000 libras),
então temos o seguinte modelo de regressão linear simples:
A identificação desta reta (estimação dos parâmetros do modelo) pode ser
efetuada por meio do estimador de mínimos quadrados ordinários (MQO).
y = β0 + β1x + ε
β0 e β1 são constantes não conhecidas
ε é um termo aleatório com distribuição normal (ε ~ N(0,σ2))
modelo

Motivação
Neste caso o rendimento (y) é explicado pelo peso da carga (x),
então, y=f(x):
y = rendimento = variável dependente
x = peso da carga = variável independente
A relação estocástica entre as duas variáveis pode ser modelada
da seguinte forma:
y = β0 + β1x + ε
Onde:
β0 e β1 são coeficientes desconhecidos da reta que relaciona as
variáveis x e y (estimados a partir dos dados da amostra).
ε é um termo aleatório (erro) que representa a imprecisão na
relação entre x e y.

Motivação
Para uma carga de 70 mil libras (X= 70) espera-se um rendimento de 4,62
milhas/galão ( Ê(Y|X) = 4,62 )
E(Y|X) = 8,8484 – 0,0604 x 70 ≅≅≅≅ 4,62
Equação da reta estimada por MQO
Ê(Y|X) = 8,8484 – 0,0604 X
X
Y

Motivação
Estimação por mínimos quadrados ordinários (MQO)
Modelo ajustado
Ê(Y|X) = 8,8484 – 0,0604 X
xy 10
ˆˆ β−=β
( )( )
( )∑
∑
=
=
−
−−
=β n
i
i
n
i
ii
xx
yyxx
1
2
1
1
ˆ
Estimador MQO
X é a variável independente ou explicativa, neste caso o
peso ( é a média amostral de X)
Y é a variável dependente ou explicada, neste caso é o
rendimento (milhas por galão), é a média amostral de Y
n é número de observações, neste caso 40
0
ˆβ 1
ˆβ
X
Y

Motivação
Interpretação da equação estimada
Ê(Y|X) = 8,8484 – 0,0604 X
Cada incremento de 1000 libras (∆∆∆∆X=1) na carga implica em uma redução, média,
do rendimento (milhas/galão) da ordem de 0,0604 milhas/galão.
A transportadora paga $ 1,25 por galão de diesel, então qual o incremento no
custo para transportar 1000 libras adicionais por um trajeto de 100 milhas, dado
que o frete é o médio (68,6 1000 libras)?

Motivação
4,7 milhas/galão
100 milhas x 1,25 $/galão
= $ 26,60
O custo da mesma viagem com 1000 libras adicionais é:
(4,7 – 0,0604) milhas/galão
100 milhas x 1,25 $/galão
= $ 26,94
Ou seja, 1000 libras adicionais na carga aumenta o custo em 34 centavos
centróide
6,68=X
7,4=Y
A transportadora paga $ 1,25
por galão de diesel, então
qual o custo para transportar
1000 libras de carga em um
trajeto de 100 milhas ?
O rendimento médio é 4,7
milhas/galão, logo para um
trajeto de 100 milhas com
trasporte do frete médio (68,6
1000 libras), em média, o
custo total é:

Modelos de regressão linear
Modelo de regressão linear simples:
uma variável dependente explicada por uma variável
independente.
y = β0 + β1x + ε
Modelo de regressão linear múltipla:
Uma variável dependente explicada por pelo menos duas
variáveis independentes.
y = β0 + β1x1 + ... + βKxK + ε (K≥2)
Objetivo: Identificar uma função linear que permita explicar uma
variável dependente (y) em função das variáveis explicativas (x),
ou seja, como y varia de acordo com mudanças em x.

Significado do erro εεεε
O erro ε representa:
Todos os outros fatores que afetam a variável dependente Y,
mas que não estão contempladas nas variáveis explicativas X.
Erros de medição.
Forma funcional inadequada, por exemplo,
y = β0 + β1x ou y = β0 + β1x + β1x2 ?
Inerente variabilidade no comportamento dos agentes
econômicos.

Modelo de Regressão Linear Simples
Equação de regressão populacional:
y = β0 + β1x + ε (apenas uma variável independente)
Os coeficientes ββββ0 e ββββ1 não são conhecidos e devem ser
estimados a partir de uma amostra aleatória de tamanho n da
população:
Amostra aleatória de tamanho n ⇒ (xi , yi), i=1,n
Em cada unidade amostrada tem-se que
yi = β0 + β1xi + εi i=1,n
Erro, variável aleatória
não-observável
Componente
determínistica

Hipóteses assumidas pelo modelo
H1) A relação entre as variáveis é linear yi = β0 + β1xi + εi i=1,n:
H2) Média nula: E(εi) = 0 para todo i=1,n
H3) Variância constante: V(εi) = σ2 para todo i=1,n
H4) Erros não correlacionados: Cov(εi,εk) = 0 para todo i≠k
H5) Distribuição Normal: εi ~ N(0,σ2) para todo i=1,n
εi são independentes e identicamente distribuídos N(0,σσσσ2)
H6) A variável explicativa X é fixa, i.e., não é estocástica

( ) 2
σ=yV
ε+β+β= xy 10
Como o valor esperado do erro é zero E(εεεε)=0, o valor esperado de y condicionado
ao valor de x é igual a:
( ) ( )ε+β+β= xExyE 10|
( ) ( )ε+β+β= ExxyE 10|
( ) xxyE 10| β+β=
Por hipótese a variável independente não é aleatória, assim tem-se:
( )2
10 ,~ σβ+β xNy
Como o erro tem distribuição Normal com média 0 e variância σσσσ2

( ) xxyE 10| ββ +=
Reta de regressão

Estimador de mínimos quadrados
yi = β0 + β1xi + εi ⇒ εi = yi - β0 - β1xi
( )[ ]∑∑ ==
β+β−=ε=
n
i
ii
n
i
i xyf
1
2
10
1
2
( )[ ]∑=
ββ
β+β−=
n
i
ii xyfMin
1
2
10
, 10
( )[ ] 00
1
10
0
=β+β−⇒=
β∂
∂
∑=
n
i
ii xy
f
( )[ ] 00
1
10
1
=β+β−⇒=
β∂
∂
∑=
n
i
iii xyx
f
∑∑ ==
=β+β
n
i
i
n
i
i yxn
11
10
∑∑∑ ===
=β+β
n
i
ii
n
i
i
n
i
i yxxx
11
2
1
1
0
Soma dos quadrados dos erros
As estimativas de ββββ0 e ββββ1 devem minimizar a
soma sos quadrados dos desvios
No ponto de mínimo as
derivadas parciais são nulas
Sistema de equações normais
A solução deste sistema fornece
os estimadores de ββββ0 e ββββ1

∑∑ ==
=β+β
n
i
i
n
i
i yxn
11
10
∑∑∑ ===
=β+β
n
i
ii
n
i
i
n
i
i yxxx
11
2
1
1
0
Solução do sistema de equações normais
xy 10
ˆˆ β−=β
( )( )
( )∑
∑
=
=
−
−−
=β n
i
i
n
i
ii
xx
yyxx
1
2
1
1
ˆ
Sistema de equações normais
Estimadores de mínimos quadrados

ii xy 10
ˆˆˆ β+β=
Valor estimado da variável dependente
y dado que x é igual a xi
Resíduo da i-ésima observação é igual
a diferença entre o valor observado e o
valor estimado da variável yi
( )iii
iii
xy
yy
10
ˆˆˆ
ˆˆ
β+β−=ε
−=ε
Equação de regressão estimada ( ) xxyEy 10
ˆˆ|ˆ β+β==

( )∑
∑
=
=
−
= n
i
i
n
i
i
xxn
x
1
2
1
22
2
ˆ
0
ε
β
σ
σ
∑=
−
= n
i
i xx
1
22
2
2
ˆ
1
ε
β
σ
σ
Se as hipóteses H1 até H6 forem satisfeitas, os estimadores de mínimos
quadrados são estimadores lineares não tendenciosos de variância
mínima (Teorema de Gauss Markov)
( ) 00
ˆ β=βE
( ) 11
ˆ β=βE
( )2
ˆ00 0
,~ˆ
β
σββ N
( )2
ˆ11 1
,~ˆ
β
σββ N
( )
2
ˆˆ
2
ˆ
ˆ 1
2
10
1
2
2
−
−−
=
−
=
∑∑ ==
n
xy
n
u
n
i
ii
n
i
i ββ
σε
Modelo de regressão linear simples
Estimador da
variância do
erro
O estimador
MQO é não
tendencioso
Os estimadores
são normalmente
distribuídos

Decomposição do erro
Y
X
Y
Y = b0 + b1X (reta de regressão)^
Yi (valor observado)
Yi -Y Yi (valor estimado pela reta)
^
Yi - Y^
Yi -
Média da
variável
dependente
^
Yi (resíduo)

SQT é a soma dos
quadrados dos
desvios de Y em
relação a sua média,
logo SQT é uma
medida da variação
total da variável
dependente.
( )∑=
−=
n
i
i YYSQT
1
2
Y
X
Y

SQR é a soma dos
quadrados dos desvios
entre a reta de regressão
e a média da variável
dependente Y.
SQR é uma medida da
variação total da variável
dependente explicada
pela regressão.
( )∑=
−=
n
i
i YYSQR
1
2
ˆ
Y
X
Y
Y corresponde as
estimativas definidas
pela reta de regressão
^

SQE é a soma dos
quadrados dos desvios
de Y em relação a reta de
regressão (resíduos).
SQE expressa a parcela
da variação de Y não
explicada pela reta de
regressão.
Y
X
( )∑=
−=
n
i
ii YYSQE
1
2
ˆ
Y corresponde as
estimativas definidas
pela reta de regressão
^

Decomposição da soma de quadrados total
( ) ( ) ( )∑∑ ∑ == =
−+−=−
n
i
ii
n
i
n
i
iii YYYYYY
1
2
1 1
22
ˆˆ
SQT = SQE + SQR
SQT = Soma de Quadrados Total (variação total da variável dependente)
SQR = Soma de Quadrados da Regressão (parcela da variação total explicada pelo
modelo)
SQE = Soma de Quadrados dos Erros (Resíduos) (parcela da variação total não
explicada pelo modelo)
n é o total de observações na amostra

( )
( ) SQT
SQE
YY
YY
SQT
SQR
R n
i
i
n
i
ii
−=
−
−
==
∑
∑
=
=
1
ˆ
1
2
1
2
2
Coeficiente de determinação
10 2
≤≤ R
Se R2 estiver próximo de 1, a variável x explica a maior parte da variação total de
y. Neste caso, a variável x é uma boa preditora da variável y.
Se R2 estiver próximo de 0, a variável x explica muito pouco da variação total de y.
Neste caso, a variável x não é uma boa preditora da variável y.

Análise da variância (ANOVA)
2
ˆεσ
Estimador da
variância do erro
SQT
SQR
R =2
( )2−
=
nSQE
SQR
F
Fonte de variação
Graus de
liberdade
Soma dos quadrados Quadrados médios
Regressão 1 ( )∑=
−=
n
i
i XxSQR
1
22
1
ˆβ 1/SQRQMR =
Resíduos n-2 ( )∑=
−=
n
i
ii yySQE
1
2
ˆ ( )2/ −= nSQEQME
Total n-1
2
1
2
YnySQT
n
i
i −= ∑=

No exemplo da transportadora tem-se que
R2 = 0,76, ou seja, 76% da
variação do rendimento é
explicada pela equação de
regressão Y = 8,8484 – 0,0604X
SQR
SQE SQT
Resultados gerados pelo Excel
equação de regressão
Y = 8,8484 – 0,0604X
Análise da variância (ANOVA)

2
ˆ
1
~
ˆ
ˆ
1
−= Ntt
β
σ
β
tcrítico é um valor tabelado para um nível de
significância αααα, no Excel use INVT(alfa;N-2)
Inferência Estatística
Teste t
Avalia a significância do coeficiente de regressão linear associado
com uma determinada variável explicativa.
Sob H0
t > tcrítico rejeita H0
t < tcrítico aceita H0
Modelo de regressão linear simples: Y = ββββ0 + ββββ1X + εεεε
Estatística teste
H0 : ββββ1 = 0 ( ausência do efeito )
H1 : ββββ1 ≠≠≠≠ 0 ( presença do efeito )

Inferência Estatística (teste t)
1
ˆβ 1
ˆˆβ
σ 9052,10
0055,0
0604,0
ˆ
ˆ
1
ˆ
1
−=
−
==
β
σ
β
t
H0 : ββββ1 = 0
H1 : ββββ1 ≠≠≠≠ 0
Ao nível de significância α de 5% o valor
tabelado (tcrítico) de uma t com (40-2) = 38
graus de liberdade é 2,024 =INVT(0,05;38)
Valor absoluto do t calculado maior que
tcrítico, logo H0 é rejeitada.
2
ˆ
~
ˆ
ˆ
−= Ntt
β
σ
β
Estatística teste
t calculado

Exemplo modelo de regressão linear simples
Região de rejeição
Distribuição t
Inferência Estatística (teste t)
2,024- 2,024
tcalculado = -10,9052
tcrítico = INVT(0,05;38)
Região de
rejeição bilateral
H0 : ββββ1 = 0
H1 : ββββ1 ≠≠≠≠ 0
0 1
ˆ
1
ˆ
ˆ
β
σ
β
=t

O valor p (p-value) fornece uma forma direta de decidir entre a rejeição
e a não rejeição da hipótese nula H0
P-valor é a probabilidade de encontrar um valor para a estatística teste
mais extremo que o valor calculado para a estatística teste (tcalculado).
Se o valor p é menor que os níveis usuais de significância (1% ou 5%)
devemos concluir pela rejeição da hipótese nula
Cálculo do valor p no exemplo da transportadora:
tcalculado = -10,9052
valor p = P(t mais extremo que tcalculado) = P (t ≤ -10,9052 ou t ≥ 10,9052) = 2,91E-13
Inferência Estatística (teste t e valor p)
No Excel
=DISTT(10,9052;38;2)
Probabilidade muito pequena e menor que o nível de significância
adotado (5%), logo a hipótese nula (H0) deve ser rejeitada
H0 : ββββ1 = 0
H1 : ββββ1 ≠≠≠≠ 0

Inferência Estatística (teste t e p-valor)
Valor p menor que o nível de significância adotado (5%),
logo a hipótese nula (H0) deve ser rejeitada

2
1
11
2
111 1
ˆˆˆˆ
αβαβ σββσβ
−−
⋅+≤≤⋅− tt
Intervalo de confiança 100(1-αααα)%
Inferência Estatística (intervalo de confiança)
O intervalo -0,0716 ≤ β1 ≤ -0,0492 tem
95% de confiança de conter o valor do
coeficiente de regressão da variável peso
Valores
tabelados

Previsor ( ) hhh XXYE 10
ˆˆ|ˆ ββ +=
Erro de previsão ( ) ( ) ( ) ( ) hhhhhh XXYEXYE 1100
ˆˆ|ˆ| ββββε −+−=−=
( ) ( )
( ) 











−
−
+=
∑=
n
i
i
h
h
XX
XX
n
S
1
2
2
22 1
ˆεσε
Intervalo de previsão
( ) ( ) ( ) ( )[ ]hchhhchh StXYEStXYE εε 22
|ˆ,|ˆ +−
Previsão do valor esperado
2
Re
ˆ
−
=
n
sSQ
εσ

Dado XT+h prever YT+h
Previsor
hh XY 1
ˆˆˆ
0
ββ +=
Erro de previsão ( ) ( ) hhhhh uXYY +−+−=−= 1100
ˆˆˆ ββββε
( ) ( )
( ) 











−
−
++=
∑=
n
i
i
h
h
XX
XX
n
S
1
2
2
22 1
1ˆεσε
Intervalo de previsão
( ) ( )[ ]hchhch StYStY εε 22 ˆ,ˆ +−
Previsão de uma observação
2
Re
ˆ
−
=
n
sSQ
εσ

Intervalo de previsão de uma observação
Intervalo de previsão do valor esperado

Exemplo
A Comissão de Serviços Públicos é responsável pela regulação dos serviços
públicos, ou seja, atua no sentido de induzir as empresas a serem eficientes e
prestarem serviços de qualidade ao preço justo para a população.
Em um determinado Estado atuam diferentes empresas de serviços públicos sob o
regime de monopólio nas respectivas áreas de concessão. O trabalho do auditor
consiste em visitar estas empresas e auditar seus registros financeiros para detectar
se algum tipo de abuso está ocorrendo. A maior dificuldade do auditor é avaliar se
os custos apresentados pelas empresas são razoáveis, pois as empresas têm
diferentes tamanhos
O arquivo empresas.xls contêm registros do número de clientes e custos de
manutenção de 12 empresas de serviço público.
• Estime o modelo de regressão.
• Qual o custo de manutenção esperado para uma empresa com 75.000 clientes ?
• Suponha que uma empresa com 75.000 clientes reporte uma despesa com
manutenção de 1.500.000. Com base nos resultados da regressão linear, o auditor
deve ver este número como razoável ou excessivo ?

Exemplo
clientes (1000) despesas com manutenção (1000 US$)
25.3 484.6
36.4 672.3
37.9 839.4
45.9 694.9
53.4 836.4
66.8 681.9
78.4 1037
82.6 1095.6
93.8 1563.1
97.5 1377.9
105.7 1711.7
124.3 2138.6
XY 02,1532,33ˆ +=
Y = Despesa com manutenção
X = Nº de clientes

Qual o custo de manutenção esperado para uma empresa com 75.000 clientes ?
X = 75 →
Exemplo
82,11597502,1532,33ˆ =⋅+=Y
Y = Despesa com manutenção
X = Nº de clientes
75
1159,82
→ US$ 1.159.820,00

Suponha que uma empresa com 75.000 clientes reporte uma despesa com
manutenção de 1.500.000. Com base nos resultados da regressão linear, o auditor
deve ver este número como razoável ou excessivo ?
Podemos responder esta pergunta por meio de um intervalo de previsão para uma
observação.
Exemplo
( ) ( )[ ]hchhch StYStY εε 22 ˆ,ˆ +−
( ) ( )
( ) 











−
−
++=
∑=
n
i
i
h
h
XX
XX
n
S
1
2
2
22 1
1ˆεσεonde
Obtido na Anova
Quadrado médio do
resíduo 35236
Nº de observações = 12
t crítico com N-2 graus de liberdade ao nível de
significância αααα. No Excel =INVT(0.05;10) = 2,2281
Valor estimado pelo modelo de
regressão para variável dependente
(Yh = 1159,2) quando Xh = 75.
Média da variável dependente
70,67

O intervalo de confiança cobre o ponto (75, 1500), logo o valor do custo não é
excessivo.
Exemplo
X = 75 (1000 clientes)
Y = 1500 (1000 US$)

Exemplo modelo de regressão linear simples no Excel
1) Matriz de dados para regressão linear simples
1 variável dependente
1 variável independente
2) No menu Ferramentas escolha a
opção Análise de dados
3) Na caixa de diálogo escolha a
opção Regressão e clique em Ok
4) Informe os dados para regressão
na caixa de diálogo

Caixa de diálogo regressão
Intervalo com os valores da
variável dependente
variável independente
Rótulos:
nomes das
variáveis Marque se tem rótulo
Grava resultados da regressão
em uma nova planilha
Apresenta a
série de
resíduos
YY ˆ−
Gráfico com
os valores
observados
e previstos
Gráfico dos
resíduos
contra a
variável
explicativa
Gráfico para avaliar se a
hipótese de normalidade do
erro é satisfeita

Planilha de Resultados
R2
2
R
Valor P
P(F>24,3492) = 0,0011
Valor P < 5%
rejeito H0 no
teste F
α β Valor P
P( |t| >2,1495) = 0,0638
Valor P
P( |t| >4,9345) = 0,0011
Intervalo de
confiança
4,9345- 4,9345
Valor P < 5%
rejeito H0 no
teste F
Yˆ YY ˆ−
Valores para
a plotagem de
probabilidade
normal

Gráficos na planilha de Resultados
X Plotagem de resíduos
-20
0
20
0 10 20 30 40 50
X
Resíduos
X Plotagem de ajuste de linha
0
10
20
30
40
50
60
0 10 20 30 40 50
X
Y
Y
Previsto(a) Y
Plotagem de probabilidade normal
0
10
20
30
40
50
60
0 20 40 60 80 100
Percentil da amostra
Y
Útil na verificação da hipótese de
variância constante do erro
Útil na verificação da hipótese de
normalidade do erro (valores ao
redor de uma reta imaginária
indicam que a hipótese de
normalidade não foi violada)
Valores observados contra valores estimados
Útil na avaliação da qualidade do ajuste

Regressões que se tornam lineares por anamorfose
i
X
i
i
Y εββ 10=(exponencial)
iii XY εβ β1
0=(potência)
i
i
i
X
Y εββ ++=
1
10(hipérbole)
iiii XXY εβββ +++= 2
110
(polinomial)
As especificações a seguir são não-lineares, mas podem se tornar lineares por
anamorfose, ou seja, mediante alguma transformação das variáveis.
iii XY εββ lnlnlnln 10 +⋅+=
iii vXY +⋅+= *
1
*
0
*
ββ
ii YY ln*
=
0
*
0 ln ββ =
1
*
1 lnββ =
iiv εln=
iii XY εββ lnlnlnln 10 ++=
iii vXY +⋅+= *
1
*
0
*
ββ
ii YY ln*
=
0
*
0 ln ββ =
iiv εln=
ii XX ln*
=
iii XY εββ ++= *
10
i
i X
X 1*
=
iiii XXY εβββ +++= 21110
ii XX =1
2
2 ii XX =
Modelo linear
Modelo linear
Modelo linear
Modelo regressão linear múltipla
A substituição de variáveis é válida, pois a
relação entre X1 e X2 é não linear

Modelo de regressão linear múltipla

A variável dependente é uma função linear de K variáveis independentes (K≥≥≥≥2)
iKikiii XXXY εββββ +++++= K22110
Notação matricial
i=1,n
εβ += XY












=
nY
Y
Y
Y
M
2
1












=
knn
k
k
XX
XX
XX
X
1
212
111
1
1
1
M
L
β
β
β
β
=












0
1
M
k












=
nε
ε
ε
ε
M
2
1
ββββ1, ββββ2, ββββ3,..., ββββk, σσσσ2 são parâmetros do modelo que devem ser estimados
[ ] i
k
Kiii XXY ε
β
β
β
+












⋅=
M
L 1
0
,1,1 i=1,n
Na regressão linear simples (K=1), um caso particular da regressão linear múltipla

Hipóteses assumidas pelo modelo de regressão linear múltipla
H1) A relação entre as variáveis é linear yi = β0 + β1xi1 + β2x2i +...+ βkxki + εi i=1,n.
H2) A variável explicativa X é fixa, ou seja, não é aleatória.
H3) As colunas da matriz X são linearmente independentes, ou seja, não há uma
relação linear perfeita entre duas ou mais as variáveis explicativas.
H4) Erros tem média nula: E(εi) = 0 para todo i=1,n.
H5) Variância do erro é constante (homocedasticidade):
V(εi) = σ2 para todo i=1,n.
H6) Erros não correlacionados: Cov(εi,εk) = 0 para todo i≠k.
H7) Erros tem distribuição Normal: εi ~ N(0,σ2) para todo i=1,n.
H2,H3,H4 e H5 ⇒⇒⇒⇒ εεεεi são independentes e identicamente distribuídos N(0,σσσσ2)
Basicamente, são as mesmas hipóteses assumidas na regressão linear simples

( ) YXXX TT 1
ˆ −
=β
























=
∑∑∑∑
∑∑∑∑
∑∑∑∑
∑∑∑
====
====
====
===
n
i
Ki
n
i
Kii
n
i
Kii
n
i
Ki
n
i
kii
n
i
i
n
i
ii
n
i
i
n
i
kii
n
i
ii
n
i
i
n
i
i
n
i
Ki
n
i
i
n
i
i
T
XXXXXX
XXXXXX
XXXXXX
XXXn
XX
1
2
1
2
1
1
1
1
2
1
2
2
1
21
1
2
1
1
1
21
1
2
1
1
1
11
2
1
1
OM
L
Estimador de Mínimos Quadrados Ordinários (MQO)
























=
∑
∑
∑
∑
=
=
=
=
n
i
iKi
n
i
ii
n
i
ii
n
i
i
T
yx
yx
yx
y
YX
1
1
2
1
1
1
M
Equação de
projeção
[ ]














⋅=+++==
k
KKk XXXXXyEy
β
β
β
βββ
ˆ
ˆ
ˆ
1ˆˆˆ)|(ˆˆ 1
0
1110
M
LK

( ) ( ) 12ˆ −
=Σ XX T
σβ
kn
SQE
−
=2
ˆσ
Propriedades do estimador de mínimos quadrados
( ) ββ =ˆE
( )( )12
1 ,~ˆ −
+ XXN T
K σββ
Se as hipóteses H1 até H6 forem satisfeitas, o estimador de mínimos
quadrados é o melhor estimador linear não tendencioso (Teorema de
Gauss Markov)
Estimador não tendencioso
Matriz de covariância dos estimadores
O vetor de estimadores tem
distribuição normal multivariada
( )jjjj aN 2
,~ˆ σββ
Cada tem distribuição normal
ajj elemento da diagonal principal
da inversa de X’X
jβˆ

Exemplo modelo de regressão linear múltipla (KUTNER et al, 2004)
X1 X2 Y
68,5 16,7 174,4
45,2 16,8 164,4
91,3 18,2 244,2
47,8 16,3 154,6
46,9 17,3 181,6
66,1 18,2 207,5
49,5 15,9 152,8
52 17,2 163,2
48,9 16,6 145,4
38,4 16 137,2
87,9 18,3 241,9
72,8 17,1 191,1
88,4 17,4 232
42,9 15,8 145,3
52,5 17,8 161,1
85,7 18,4 209,7
41,3 16,5 146,4
51,7 16,3 144
89,6 18,1 232,6
82,7 19,1 224,1
52,3 16 166,5
Uma empresa de artigos infantis opera em 21 cidades de médio porte. A empresa
está analisando a possibilidade de expansão em outras cidades de médio porte e
para isso deseja investigar se a vendas (Y) em uma localidade podem ser preditas
com base no número de pessoas com até 16 anos de idades (X1) e a renda per
capita na localidade (X2). Valores expressos em milhares.
Atualmente a empresa está presente em 21 localidades (N = 21), cujos dados são
apresentados na tabela abaixo:
εβββ +++= 22110 XXY
Modelo de regressão linear múltipla a ser estimado
0
50
100
150
200
250
300
30 40 50 60 70 80 90 100
X1
Y
0
50
100
150
200
250
300
15 16 17 18 19 20
X2
Y

Exemplo modelo de regressão linear múltipla
( ) 2211021, XXXXYE i βββ ++=A equação de regressão
Os dados das 21 localidades podem ser dispostos em um gráfico, onde cada
localidade é representada por um ponto.
define um plano
passando pelo meio da nuvem de pontos. Este plano representa o valor esperado
das vendas em função da renda e da população abaixo de 16 anos em uma
localidade
populaçãorenda
vendas

Modelo de regressão linear
Estimação dos coeficientes de regressão por mínimos quadrados
iiii XXY εβββ +++= ,22,10
1 68,5 16,7
1 45,2 16,8
1 91,3 18,2
1 47,8 16,3
1 46,9 17,3
1 66,1 18,2
1 49,5 15,9
1 52 17,2
1 48,9 16,6
1 38,4 16
1 87,9 18,3
1 72,8 17,1
1 88,4 17,4
1 42,9 15,8
1 52,5 17,8
1 85,7 18,4
1 41,3 16,5
1 51,7 16,3
1 89,6 18,1
1 82,7 19,1
1 52,3 16
X =
174,4
164,4
244,2
154,6
181,6
207,5
152,8
163,2
145,4
137,2
241,9
191,1
232
145,3
161,1
209,7
146,4
144
232,6
224,1
166,5
Y =
21,00 1.302,40 360,00
1.302,40 87.707,94 22.609,19
360,00 22.609,19 6.190,26
=XX T
3.820,00
249.643,35
66.072,75
=YX T
29,7289 0,0722 -1,9926
0,0722 0,0004 -0,0055
-1,9926 -0,0055 0,1363
( ) =
−1
XX T
( ) YXXX TT 1
ˆ −
=β









−
=










3655,9
4546,1
8571,68
ˆ
ˆ
ˆ
2
1
0
β
β
β
Dados
ε+++−= 21 37,945,186,68 XXY
Equação estimada

Gráficos dos resíduos contra cada variável explicativa e a variável explica exibe
um padrão aleatório e a dispersão parece constante e, portanto, estão coerentes
com as hipóteses (pressupostos) de covariâncias nulas entre os erros e variância
do erro constante.

O gráfico de probabilidade normal índica que a distribuição dos resíduos é
normal, portanto, coerente com a hipótese (pressuposto) de distribuição normal
para o erro.

Análise da variância - ANOVA
( )
( )∑
∑
=
=
−
−
== n
i
i
n
i
ii
YY
YY
SQT
SQR
R
1
2
1
2
2
ˆ
( ) kn
n
RR
−
−
−−=
1
11 22
( )[ ]1+−
==
knSQE
kSQR
QME
QMR
F
Inferência Estatística no Modelo de Regressão Linear
Fonte de
variação
Graus de
liberdade
Soma dos quadrados Quadrados médios
Regressão K nyYXSQR
n
i
i
TT
2
1
ˆ 





−= ∑
=
β KSQRQMR /=
Resíduos n - (K+1) YXYYSQE TTT
βˆ−= ( )[ ]1/ −−= KnSQEQME
Total n -1 nyYYSQT
n
i
i
T
2
1






−= ∑
=

Construção da ANOVA para o exemplo da cadeia de lojas de roupas juvenis
iii XXY 21 3655,94546,18571,68ˆ ++−=
SQE SQR SQT

Construção da ANOVA para o exemplo da cadeia de lojas de roupas juvenis
Fonte de
variação
Soma dos
quadrados
(A)
Graus de
liberdade
(B)
Quadrado
médio
(C=A/B)
F
Regressão SQR
24015,28
2 12007,64 12007,64 / 121.1626 =
99,1035
Resíduo SQE
2180,93
N-3=18 121,1626
Total SQT
26196,21
N-1=20
ANOVA
2 variáveis
explicativas 3 coeficientes
estimados
Por isso N – 3
O quadrado médio dos
resíduos é uma estimativa
da variância do erro
2
ˆεσ
Coeficiente de
determinação R2
917,0
21,26196
28.240152
===
SQT
SQR
R

Teste t H0 : ββββ j = 0
H1 : ββββ j ≠≠≠≠ 0
( )1~
ˆ +−= kn
j
t
b
t
jβσ
( )[ ]1+−
=
knSQE
kSQR
F
H0 : ββββ 1 = ββββ 2 = ββββ 3 =...= ββββ k =0
H1 : pelo menos um ββββj ≠≠≠≠ 0
Teste F
t t rejeita Htabelado≥ ⇒ 0
F F rejeita Htabelado≥ ⇒ 0
Inferência Estatística

Modelo de regressão linear
Estimativas dos erros padrão dos coeficientes de regressão
( )12
2
ˆˆˆˆˆ
ˆˆ
2
ˆˆˆ
ˆˆˆˆ
2
ˆ
ˆ
ˆˆˆ
ˆˆˆ
ˆˆˆ
22120
21110
20100
−
⋅=












= XXS T
ε
βββββ
βββββ
βββββ
β σ
σσσ
σσσ
σσσ
0170,600347,3602ˆˆ 2
ˆˆ
00
=== ββ
σσErros padrão dos
estimadores dos
coeficientes de
regressão (valores
informados pelo ajuste
de regressão no Excel)
Resultado na ANOVA = 121,1626
29,7289 0,0722 -1,9926
0,0722 0,0004 -0,0055
-1,9926 -0,0055 0,1363
=βS
3.602,0347 8,7459 -241,4230
8,7459 0,0449 -0,6724
-241,4230 -0,6724 16,5158
2118,00449,0ˆˆ 2
ˆˆ
11
=== ββ
σσ
0640,45158,16ˆˆ 2
ˆˆ
22
=== ββ
σσ
Variâncias na diagonal principal
Covariâncias fora da diagonal principal
iiii XbbXbY ε+++= ,22,10

Inferência do modelo
H0 : b1 = b2 = 0 ( não há regressão de Y em X1 e X2)
H1 : b1 ≠≠≠≠ 0 ou b2 ≠≠≠≠ 0 ( presença do efeito )
( )1+−
=
Kn
SQE
K
SQR
F
Fcalculado > Fcrítico logo rejeita H0
1) Estatística teste
4) F crítico ao nível de
significância de 5% = 3,5546
=FINV(0,05;2;18) no Excel
Distribuição F
Teste F: Testa o efeito conjunto das variáveis explicativas sobre a variável
dependente.
( )
1035,99
1221
1626,121
2
64,007.12
=
+−
=F
2) Distribuição da
estatística testes sob H0
( )
( )1,~
1
+−
+−
KnKF
Kn
SQE
K
SQR
3) Valor da estatística
teste na amostra
observada (Fcalculado)
5) Conclusão

tcalculado > tcrítico logo rejeita H0
Distribuição t
Teste t: Testa a significância do coeficiente de regressão linear associado com
uma determinada variável explicativa.
H0 : b1 = 0 ( ausência do efeito )
H1 : b1 ≠≠≠≠ 0 ( presença do efeito )
3
ˆ
1
~
ˆ
ˆ
1
−Nt
b
β
σ
8682,6
2118,0
4546,1
==t
4) t crítico ao nível de
=TINV(0,05;18) no Excel
1
ˆ
1
ˆ
ˆ
β
σ
b
t =
1) Estatística teste 2) Distribuição da
teste na amostra
observada (tcalculado)
5) Conclusão

Distribuição t
Teste t: Testa a significância do coeficiente de regressão linear associado com
uma determinada variável explicativa.
H0 : b2 = 0 ( ausência do efeito )
H1 : b2 ≠≠≠≠ 0 ( presença do efeito )
3045,2
0640,4
3655,9
==t
3
ˆ
2
~
ˆ
ˆ
2
−Nt
b
β
σ2
ˆ
2
ˆ
ˆ
β
σ
b
t =
1) Estatística teste 2) Distribuição da
teste na amostra
observada (tcalculado)
4) t crítico ao nível de
=TINV(0,05;18) no Excel
5) Conclusão
tcalculado > tcrítico logo rejeita H0

Intervalos 95% de confiança para os coeficientes da equação de regressão
( )( ) ( )( )%5,2
ˆ
ˆ
%5,2 11 +−+− ≤
−
≤− Kn
b
ii
Kn t
bb
t
i
σ
95%
2339,57948,1941,2
0170,60
8571,68
1,2 0
0
≤≤−⇒≤
−−
≤− b
b
8995,10096,11,2
2118,0
4546,1
1,2 1
1
≤≤⇒≤
−
≤− b
b
9036,178274,01,2
0640,4
3655,9
1,2 2
2
≤≤⇒≤
−
≤− b
b
Distribuição t
K = número de variáveis independentes
n = tamanho da amostra

R2 ajustado
( )22
1
1
1 R
kn
n
Rajustado −
−
−
−=
Problema com a estatística R2 : sempre aumenta a medida que novas variáveis
são incluídas no modelo de regressão linear múltipla, independentemente da
variável adicionada.
No entanto cada variável adicionada ao modelo tem um custo, pois mais um
coeficiente deve ser estimado. Então é interessante ter uma medida que permita
avaliar o benefício para melhoria do modelo com a adição de uma nova variável
explicativa em relação ao custo de estimar mais um coeficiente.
Esta medida é o R2 ajustado
Onde
n é o tamanho da amostra
K é o número de parâmetros da equação de regressão.
O R2 ajustado é útil quando desejamos comparar dois modelos diferentes ou
comparar um mesmo modelo com tamanhos de amostras diferentes

[ ]khhh
T
h XXXx L211=
Previsão
Dado
( ) khkhh XXXYE βββ ˆˆˆ|ˆ
110 +++= K
h
T
hprevisão xSxs βˆ
2
=
khkhh XXY βββ ˆˆˆˆ
110 +++= K
2
ˆ
2 ˆσβ += h
T
hprevisão xSxs
Previsão do valor esperado da variável dependente dado Y
Previsão do valor da variável dependente dado Y
Quadrado médio
dos resíduos
Valor obtido na
ANOVA
Erro padrão das
previsões

Exemplo
Calcule a previsão das vendas esperadas nas cidades A e B:
Cidade A
número de pessoas com até 16 anos de idades (X1) : 65,4
renda per capita na localidade (X2) : 17,6
Cidade B
10,1916,1737,94,6545,186,68 =⋅+⋅+−=
15,1747,1737,91,5345,186,68 =⋅+⋅+−=
[ ]6,174,651=T
hx
[ ]7,171,531=T
hx
Previsão da venda esperada
na cidade A E(Y|X)
Previsão da venda esperada
na cidade B E(Y|X)

Exemplo
Intervalos de confiança para as vendas esperadas nas cidades A e B:
Cidade A
Cidade B
1626,121ˆ 2
=εσ
[ ]6,174,651=T
hx
[ ]7,171,531=T
hx
=βS
3.602,0347 8,7459 -241,4230
8,7459 0,0449 -0,6724
-241,4230 -0,6724 16,5158
Resultado da ANOVA slide 52
Matriz de covariâncias dos
estimadores slide 54
Erro padrão das estimativas slide 60
h
T
hprevisão xSxs βˆ
2
´ =
Cidade A = 11,35
Cidade B = 11,93

Exemplo
Intervalos de confiança para as vendas esperadas nas cidades A e B:
E(Y|X) é a média das
vendas dado X
( ) 2
)1(
2
)1(
2
|
2
previsãokNprevisãokN stprevisãoXYEstprevisão 





+≤≤





− +−+−
αα
Valor crítico da t com N-(k+1) graus de liberdade ao nível de confiança 1-alfa,
podem ser obtidos no Excel, por exemplo, para 95% de confiança =INVT(0,05;18),
cujo valor é aproximadamente 2,101
( ) 9,214|3,167 ≤≤ XYE
( ) 2,199|1,149 ≤≤ XYE
Cidade A
Cidade B
Note que os intervalos de confiança tem grande amplitude apesar do elevado R2
(0,92), portanto, valores elevados de R2 não garantem necessariamente previsões
precisas

Exemplo modelo de regressão linear múltipla no Excel
1) Matriz de dados para regressão linear múltipla
1 variável dependente
2 variável independentes 2) No menu Ferramentas escolha a
opção Análise de dados
3) Na caixa de diálogo escolha a
opção Regressão e clique em Ok
4) Informe os dados para regressão
na caixa de diálogo

Caixa de diálogo regressão
variável dependente
variável independente
Rótulos:
nomes das
variáveis Marque se tem rótulo
Grava resultados da regressão
em uma nova planilha
Apresenta a
série de
resíduos
YY ˆ−
Gráfico com
os valores
observados
e previstos
Gráfico dos
resíduos
contra a
variável
explicativa
Gráfico para avaliar se a
hipótese de normalidade do
erro é satisfeita

0
ˆβ
1
ˆβ
2
ˆβ

X1 Plotagem de resíduos
-30,00
-20,00
-10,00
0,00
10,00
20,00
30,00
0 20 40 60 80 100
X1
Resíduos
X2 Plotagem de resíduos
-40,00
-20,00
0,00
20,00
40,00
0 5 10 15 20 25
X2
Resíduos
X1 Plotagem de ajuste de linha
0
50
100
150
200
250
300
0 50 100
X1
Y
Y
Previsto(a) Y
X2 Plotagem de ajuste de linha
0
100
200
300
0 10 20 30
X2
Y Y
Previsto(a) Y

Plotagem de probabilidade normal
0
100
200
300
0 50 100 150
Percentil da amostra
Y

Problemas que podem acontecer em um modelo de
regressão linear
Multicolinearidade: Quando há relações lineares exatas ou aproximadamente
lineares entre as variáveis explicativas, a redundância entre as varáveis pode
resultar em estimativas com valores elevados para o erro padrão ou impossibilitar
a estimação dos coeficientes de regressão no caso de relações lineares exatas.
Heterocedasticidade: A variância do erro não é uma constante, (violação da
hipótese de homocedasticidade). Não raro acontece quando a amostra de
observações é um corte transversal de unidades com “tamanhos” heterogêneos.
Na presença de heterocedasticidade o estimador MQO permanece não
tendencioso, mas deixa de ser o melhor estimador. Nestas situações deve-se
utilizar o métodos mínimos quadrados ponderados (MQP).
Autocorrelação: Os erros são autocorrelacionados, violação da hipótese de
covariância nula entre os erros. Problema frequente quando a amostra de dados é
formada por séries temporais. Na presença de autocorrelação serial dos erros o
estimador MQO permanece não tendencioso, mas deixa de ser o melhor
estimador. Nestas situações deve-se utilizar o métodos mínimos quadrados
generalizados (MQG).

Multicolinearidade
Ocorre quando qualquer variável independente é altamente
correlacionada com um conjunto de outras variáveis independentes.
No caso extremo, uma variável independente guarda uma relação linear
com outra variável independente. Neste caso não é possível obter as
estimativas de mínimos quadrados.
Consequências da multcolinearidade:
• Estimativas mais imprecisas
• Erros-padrão maiores
• Dificuldade da separação dos efeitos de cada variável
Soluções para contornar a multicolineardade.
• Coletar mais dados
• Eliminar variáveis
• Usar componentes principais para reduzir a dimensão dos dados

Avaliação da Multicolinearidade
1) Coeficientes de correlação simples entre as variáveis independentes
2) Tolerância: quantia de variabilidade da variável dependente não
explicada pelas outras variáveis independentes. Valores altos significam
um pequeno grau de multicolinearidade.
Tolerância= 1–Rk
2, se menor que 0,1 indica multicolinearidade
Onde Rk
2 é o coeficiente de determinação da variável independente k nas
demais variáveis independentes.
3) Fator de inflação da variância (VIF): é o inverso da tolerância. Valores
altos significam maiores níveis de multicolinearidade.
VIF = 1 / Tolerância, se maior do que 10 já indica multicolinearidade

Referências Bibliográficas
Hanke, J.E.; Wichern, D.W. Pronósticos en los negocios, Naucalpan de
Juárez: Pearson Education de México, 2006.
Kutner, M.H.; Nachtsheim, C.J.; Neter, J. Applied linear regression models,
New York: McGraw-Hill Irwin, 2004.

Econometria modelos de_regressao_linear

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Econometria modelos de_regressao_linear

Semelhante a Econometria modelos de_regressao_linear (20)

Econometria modelos de_regressao_linear