SlideShare uma empresa Scribd logo
1 de 80
Baixar para ler offline
Modelos de
Regressão Linear
Prof. José Francisco
professorjfmp@hotmail.com
Econometria
Regressão
Objetivo: Estabelecer uma função matemática que descreva
a relação entre uma variável contínua (variável explicada ou
dependente) e uma ou mais variáveis explicativas ou
independentes.
y = f(x1,x2,...,xK) + εεεε
y denota a variável dependente.
x1,x2,...,xK denotam as variáveis independentes.
f(x1,x2,...,xK) descreve a variação sistemática
εεεε representa a variação não sistemática (erro aleatório)
Modelos de regressão (função f) podem ser lineares ou não
lineares.
A função f não é conhecida e deve ser inferida a partir
das observações das variáveis y, x1,x2,...,xk.
Regressão Linear
Técnica estatística que pode ser usada para analisar a relação entre uma
única variável dependente (explicada) e um conjunto de variáveis
independentes (explicativas).
O objetivo da análise de regressão linear consiste em identificar uma
equação linear que permita prever o valor da variável dependente em
função dos valores conhecidos das variáveis independentes.
Regressão linear simples: apenas uma variável independente.
Exemplo:
variável dependente = vendas
variável independente = despesas com propaganda
Regressão linear múltipla: duas ou mais variáveis independentes.
Exemplo:
variável dependente = preço do imóvel
variáveis independentes = área, nº de quartos, nº de banheiros, idade
Motivação (HANKE & WICHERN, 2006)
Uma empresa transportadora deseja estimar o custo de agregar
carga a um caminhão parcialmente cheio.
A empresa acredita que o único incremento de custo, decorrente da
agregação de carga, é o custo adicional de combustível, pois o
rendimento (milhas por galão) seria menor.
Admite-se que a frota da transportadora é formada por caminhões
idênticos.
No período 2009-2012 foram realizadas 5.428 viagens e uma
amostra aleatória de 40 viagens foi tomada. Na tabela ao lado são
apresentados os pesos e os rendimentos (milhas/galão) das 40
viagens selecionadas na amostra.
Um incremento no
peso reduz o
rendimento
A relação entre as
variáveis não é
exata (estocástica)
Diagrama de
dispersão
representação gráfica
que permite
visualizar a
relação/associação
entre duas variáveis
Motivação
A boa aderência da nuvem de pontos ao redor de um reta imaginária indica
que a relação entre as duas variáveis pode ser aproximada por uma relação
linear.
A essência da relação entre o peso e o rendimento pode ser expressa por uma
reta. Seja Y o rendimento em milhas/galão e X o peso da carga (1000 libras),
então temos o seguinte modelo de regressão linear simples:
A identificação desta reta (estimação dos parâmetros do modelo) pode ser
efetuada por meio do estimador de mínimos quadrados ordinários (MQO).
y = β0 + β1x + ε
β0 e β1 são constantes não conhecidas
ε é um termo aleatório com distribuição normal (ε ~ N(0,σ2))
modelo
Motivação
Neste caso o rendimento (y) é explicado pelo peso da carga (x),
então, y=f(x):
y = rendimento = variável dependente
x = peso da carga = variável independente
A relação estocástica entre as duas variáveis pode ser modelada
da seguinte forma:
y = β0 + β1x + ε
Onde:
β0 e β1 são coeficientes desconhecidos da reta que relaciona as
variáveis x e y (estimados a partir dos dados da amostra).
ε é um termo aleatório (erro) que representa a imprecisão na
relação entre x e y.
Motivação
Para uma carga de 70 mil libras (X= 70) espera-se um rendimento de 4,62
milhas/galão ( Ê(Y|X) = 4,62 )
E(Y|X) = 8,8484 – 0,0604 x 70 ≅≅≅≅ 4,62
Equação da reta estimada por MQO
Ê(Y|X) = 8,8484 – 0,0604 X
X
Y
Motivação
Estimação por mínimos quadrados ordinários (MQO)
Modelo ajustado
Ê(Y|X) = 8,8484 – 0,0604 X
xy 10
ˆˆ β−=β
( )( )
( )∑
∑
=
=
−
−−
=β n
i
i
n
i
ii
xx
yyxx
1
2
1
1
ˆ
Estimador MQO
X é a variável independente ou explicativa, neste caso o
peso ( é a média amostral de X)
Y é a variável dependente ou explicada, neste caso é o
rendimento (milhas por galão), é a média amostral de Y
n é número de observações, neste caso 40
0
ˆβ 1
ˆβ
X
Y
Motivação
Interpretação da equação estimada
Ê(Y|X) = 8,8484 – 0,0604 X
Cada incremento de 1000 libras (∆∆∆∆X=1) na carga implica em uma redução, média,
do rendimento (milhas/galão) da ordem de 0,0604 milhas/galão.
A transportadora paga $ 1,25 por galão de diesel, então qual o incremento no
custo para transportar 1000 libras adicionais por um trajeto de 100 milhas, dado
que o frete é o médio (68,6 1000 libras)?
Motivação
4,7 milhas/galão
100 milhas x 1,25 $/galão
= $ 26,60
O custo da mesma viagem com 1000 libras adicionais é:
(4,7 – 0,0604) milhas/galão
100 milhas x 1,25 $/galão
= $ 26,94
Ou seja, 1000 libras adicionais na carga aumenta o custo em 34 centavos
centróide
6,68=X
7,4=Y
A transportadora paga $ 1,25
por galão de diesel, então
qual o custo para transportar
1000 libras de carga em um
trajeto de 100 milhas ?
O rendimento médio é 4,7
milhas/galão, logo para um
trajeto de 100 milhas com
trasporte do frete médio (68,6
1000 libras), em média, o
custo total é:
Modelos de regressão linear
Modelo de regressão linear simples:
uma variável dependente explicada por uma variável
independente.
y = β0 + β1x + ε
Modelo de regressão linear múltipla:
Uma variável dependente explicada por pelo menos duas
variáveis independentes.
y = β0 + β1x1 + ... + βKxK + ε (K≥2)
Objetivo: Identificar uma função linear que permita explicar uma
variável dependente (y) em função das variáveis explicativas (x),
ou seja, como y varia de acordo com mudanças em x.
Significado do erro εεεε
O erro ε representa:
Todos os outros fatores que afetam a variável dependente Y,
mas que não estão contempladas nas variáveis explicativas X.
Erros de medição.
Forma funcional inadequada, por exemplo,
y = β0 + β1x ou y = β0 + β1x + β1x2 ?
Inerente variabilidade no comportamento dos agentes
econômicos.
Modelo de Regressão Linear Simples
Equação de regressão populacional:
y = β0 + β1x + ε (apenas uma variável independente)
Os coeficientes ββββ0 e ββββ1 não são conhecidos e devem ser
estimados a partir de uma amostra aleatória de tamanho n da
população:
Amostra aleatória de tamanho n ⇒ (xi , yi), i=1,n
Em cada unidade amostrada tem-se que
yi = β0 + β1xi + εi i=1,n
Erro, variável aleatória
não-observável
Componente
determínistica
Hipóteses assumidas pelo modelo
H1) A relação entre as variáveis é linear yi = β0 + β1xi + εi i=1,n:
H2) Média nula: E(εi) = 0 para todo i=1,n
H3) Variância constante: V(εi) = σ2 para todo i=1,n
H4) Erros não correlacionados: Cov(εi,εk) = 0 para todo i≠k
H5) Distribuição Normal: εi ~ N(0,σ2) para todo i=1,n
εi são independentes e identicamente distribuídos N(0,σσσσ2)
H6) A variável explicativa X é fixa, i.e., não é estocástica
Modelo de Regressão Linear Simples
( ) 2
σ=yV
ε+β+β= xy 10
Como o valor esperado do erro é zero E(εεεε)=0, o valor esperado de y condicionado
ao valor de x é igual a:
( ) ( )ε+β+β= xExyE 10|
( ) ( )ε+β+β= ExxyE 10|
( ) xxyE 10| β+β=
Por hipótese a variável independente não é aleatória, assim tem-se:
( )2
10 ,~ σβ+β xNy
Como o erro tem distribuição Normal com média 0 e variância σσσσ2
Modelo de Regressão Linear Simples
( ) xxyE 10| ββ +=
Modelo de Regressão Linear Simples
Reta de regressão
Estimador de mínimos quadrados
Modelo de Regressão Linear Simples
yi = β0 + β1xi + εi ⇒ εi = yi - β0 - β1xi
( )[ ]∑∑ ==
β+β−=ε=
n
i
ii
n
i
i xyf
1
2
10
1
2
( )[ ]∑=
ββ
β+β−=
n
i
ii xyfMin
1
2
10
, 10
( )[ ] 00
1
10
0
=β+β−⇒=
β∂
∂
∑=
n
i
ii xy
f
( )[ ] 00
1
10
1
=β+β−⇒=
β∂
∂
∑=
n
i
iii xyx
f
∑∑ ==
=β+β
n
i
i
n
i
i yxn
11
10
∑∑∑ ===
=β+β
n
i
ii
n
i
i
n
i
i yxxx
11
2
1
1
0
Soma dos quadrados dos erros
As estimativas de ββββ0 e ββββ1 devem minimizar a
soma sos quadrados dos desvios
No ponto de mínimo as
derivadas parciais são nulas
Sistema de equações normais
A solução deste sistema fornece
os estimadores de ββββ0 e ββββ1
Estimador de mínimos quadrados
Modelo de Regressão Linear Simples
∑∑ ==
=β+β
n
i
i
n
i
i yxn
11
10
∑∑∑ ===
=β+β
n
i
ii
n
i
i
n
i
i yxxx
11
2
1
1
0
Solução do sistema de equações normais
xy 10
ˆˆ β−=β
( )( )
( )∑
∑
=
=
−
−−
=β n
i
i
n
i
ii
xx
yyxx
1
2
1
1
ˆ
Sistema de equações normais
Estimadores de mínimos quadrados
Estimador de mínimos quadrados
Modelo de Regressão Linear Simples
ii xy 10
ˆˆˆ β+β=
Valor estimado da variável dependente
y dado que x é igual a xi
Resíduo da i-ésima observação é igual
a diferença entre o valor observado e o
valor estimado da variável yi
( )iii
iii
xy
yy
10
ˆˆˆ
ˆˆ
β+β−=ε
−=ε
Equação de regressão estimada ( ) xxyEy 10
ˆˆ|ˆ β+β==
( )∑
∑
=
=
−
= n
i
i
n
i
i
xxn
x
1
2
1
22
2
ˆ
0
ε
β
σ
σ
∑=
−
= n
i
i xx
1
22
2
2
ˆ
1
ε
β
σ
σ
Se as hipóteses H1 até H6 forem satisfeitas, os estimadores de mínimos
quadrados são estimadores lineares não tendenciosos de variância
mínima (Teorema de Gauss Markov)
( ) 00
ˆ β=βE
( ) 11
ˆ β=βE
( )2
ˆ00 0
,~ˆ
β
σββ N
( )2
ˆ11 1
,~ˆ
β
σββ N
( )
2
ˆˆ
2
ˆ
ˆ 1
2
10
1
2
2
−
−−
=
−
=
∑∑ ==
n
xy
n
u
n
i
ii
n
i
i ββ
σε
Modelo de regressão linear simples
Estimador da
variância do
erro
O estimador
MQO é não
tendencioso
Os estimadores
são normalmente
distribuídos
Modelo de regressão linear simples
Decomposição do erro
Y
X
Y
Y = b0 + b1X (reta de regressão)^
Yi (valor observado)
Yi -Y Yi (valor estimado pela reta)
^
Yi - Y^
Yi -
Média da
variável
dependente
^
Yi (resíduo)
Modelo de regressão linear simples
Decomposição do erro
SQT é a soma dos
quadrados dos
desvios de Y em
relação a sua média,
logo SQT é uma
medida da variação
total da variável
dependente.
( )∑=
−=
n
i
i YYSQT
1
2
Y
X
Y
Modelo de regressão linear simples
Decomposição do erro
SQR é a soma dos
quadrados dos desvios
entre a reta de regressão
e a média da variável
dependente Y.
SQR é uma medida da
variação total da variável
dependente explicada
pela regressão.
( )∑=
−=
n
i
i YYSQR
1
2
ˆ
Y
X
Y
Y corresponde as
estimativas definidas
pela reta de regressão
^
Modelo de regressão linear simples
Decomposição do erro
SQE é a soma dos
quadrados dos desvios
de Y em relação a reta de
regressão (resíduos).
SQE expressa a parcela
da variação de Y não
explicada pela reta de
regressão.
Y
X
( )∑=
−=
n
i
ii YYSQE
1
2
ˆ
Y corresponde as
estimativas definidas
pela reta de regressão
^
Decomposição da soma de quadrados total
( ) ( ) ( )∑∑ ∑ == =
−+−=−
n
i
ii
n
i
n
i
iii YYYYYY
1
2
1 1
22
ˆˆ
SQT = SQE + SQR
SQT = Soma de Quadrados Total (variação total da variável dependente)
SQR = Soma de Quadrados da Regressão (parcela da variação total explicada pelo
modelo)
SQE = Soma de Quadrados dos Erros (Resíduos) (parcela da variação total não
explicada pelo modelo)
n é o total de observações na amostra
Modelo de regressão linear simples
( )
( ) SQT
SQE
YY
YY
SQT
SQR
R n
i
i
n
i
ii
−=
−
−
==
∑
∑
=
=
1
ˆ
1
2
1
2
2
Coeficiente de determinação
Modelo de regressão linear simples
10 2
≤≤ R
Se R2 estiver próximo de 1, a variável x explica a maior parte da variação total de
y. Neste caso, a variável x é uma boa preditora da variável y.
Se R2 estiver próximo de 0, a variável x explica muito pouco da variação total de y.
Neste caso, a variável x não é uma boa preditora da variável y.
Análise da variância (ANOVA)
Modelo de regressão linear simples
2
ˆεσ
Estimador da
variância do erro
SQT
SQR
R =2
( )2−
=
nSQE
SQR
F
Fonte de variação
Graus de
liberdade
Soma dos quadrados Quadrados médios
Regressão 1 ( )∑=
−=
n
i
i XxSQR
1
22
1
ˆβ 1/SQRQMR =
Resíduos n-2 ( )∑=
−=
n
i
ii yySQE
1
2
ˆ ( )2/ −= nSQEQME
Total n-1
2
1
2
YnySQT
n
i
i −= ∑=
No exemplo da transportadora tem-se que
Modelo de regressão linear simples
R2 = 0,76, ou seja, 76% da
variação do rendimento é
explicada pela equação de
regressão Y = 8,8484 – 0,0604X
SQR
SQE SQT
Resultados gerados pelo Excel
equação de regressão
Y = 8,8484 – 0,0604X
Análise da variância (ANOVA)
2
ˆ
1
~
ˆ
ˆ
1
−= Ntt
β
σ
β
tcrítico é um valor tabelado para um nível de
significância αααα, no Excel use INVT(alfa;N-2)
Modelo de regressão linear simples
Inferência Estatística
Teste t
Avalia a significância do coeficiente de regressão linear associado
com uma determinada variável explicativa.
Sob H0
t > tcrítico rejeita H0
t < tcrítico aceita H0
Modelo de regressão linear simples: Y = ββββ0 + ββββ1X + εεεε
Estatística teste
H0 : ββββ1 = 0 ( ausência do efeito )
H1 : ββββ1 ≠≠≠≠ 0 ( presença do efeito )
No exemplo da transportadora tem-se que
Modelo de regressão linear simples
Resultados gerados pelo Excel
Inferência Estatística (teste t)
1
ˆβ 1
ˆˆβ
σ 9052,10
0055,0
0604,0
ˆ
ˆ
1
ˆ
1
−=
−
==
β
σ
β
t
H0 : ββββ1 = 0
H1 : ββββ1 ≠≠≠≠ 0
Ao nível de significância α de 5% o valor
tabelado (tcrítico) de uma t com (40-2) = 38
graus de liberdade é 2,024 =INVT(0,05;38)
Valor absoluto do t calculado maior que
tcrítico, logo H0 é rejeitada.
2
ˆ
~
ˆ
ˆ
−= Ntt
β
σ
β
Estatística teste
t calculado
Exemplo modelo de regressão linear simples
Região de rejeição
Distribuição t
No exemplo da transportadora tem-se que
Inferência Estatística (teste t)
2,024- 2,024
tcalculado = -10,9052
tcrítico = INVT(0,05;38)
Região de
rejeição bilateral
H0 : ββββ1 = 0
H1 : ββββ1 ≠≠≠≠ 0
0 1
ˆ
1
ˆ
ˆ
β
σ
β
=t
Exemplo modelo de regressão linear simples
O valor p (p-value) fornece uma forma direta de decidir entre a rejeição
e a não rejeição da hipótese nula H0
P-valor é a probabilidade de encontrar um valor para a estatística teste
mais extremo que o valor calculado para a estatística teste (tcalculado).
Se o valor p é menor que os níveis usuais de significância (1% ou 5%)
devemos concluir pela rejeição da hipótese nula
Cálculo do valor p no exemplo da transportadora:
tcalculado = -10,9052
valor p = P(t mais extremo que tcalculado) = P (t ≤ -10,9052 ou t ≥ 10,9052) = 2,91E-13
Inferência Estatística (teste t e valor p)
No Excel
=DISTT(10,9052;38;2)
Probabilidade muito pequena e menor que o nível de significância
adotado (5%), logo a hipótese nula (H0) deve ser rejeitada
H0 : ββββ1 = 0
H1 : ββββ1 ≠≠≠≠ 0
Exemplo modelo de regressão linear simples
Inferência Estatística (teste t e p-valor)
Resultados gerados pelo Excel
Valor p menor que o nível de significância adotado (5%),
logo a hipótese nula (H0) deve ser rejeitada
2
1
11
2
111 1
ˆˆˆˆ
αβαβ σββσβ
−−
⋅+≤≤⋅− tt
Modelo de regressão linear simples
Intervalo de confiança 100(1-αααα)%
Inferência Estatística (intervalo de confiança)
No exemplo da transportadora tem-se que
Resultados gerados pelo Excel
O intervalo -0,0716 ≤ β1 ≤ -0,0492 tem
95% de confiança de conter o valor do
coeficiente de regressão da variável peso
Valores
tabelados
Previsor ( ) hhh XXYE 10
ˆˆ|ˆ ββ +=
Erro de previsão ( ) ( ) ( ) ( ) hhhhhh XXYEXYE 1100
ˆˆ|ˆ| ββββε −+−=−=
( ) ( )
( ) 











−
−
+=
∑=
n
i
i
h
h
XX
XX
n
S
1
2
2
22 1
ˆεσε
Intervalo de previsão
( ) ( ) ( ) ( )[ ]hchhhchh StXYEStXYE εε 22
|ˆ,|ˆ +−
Modelo de regressão linear simples
Previsão do valor esperado
2
Re
ˆ
−
=
n
sSQ
εσ
Dado XT+h prever YT+h
Previsor
hh XY 1
ˆˆˆ
0
ββ +=
Erro de previsão ( ) ( ) hhhhh uXYY +−+−=−= 1100
ˆˆˆ ββββε
( ) ( )
( ) 











−
−
++=
∑=
n
i
i
h
h
XX
XX
n
S
1
2
2
22 1
1ˆεσε
Intervalo de previsão
( ) ( )[ ]hchhch StYStY εε 22 ˆ,ˆ +−
Modelo de regressão linear simples
Previsão de uma observação
2
Re
ˆ
−
=
n
sSQ
εσ
Modelo de regressão linear simples
Intervalo de previsão de uma observação
Intervalo de previsão do valor esperado
Exemplo
A Comissão de Serviços Públicos é responsável pela regulação dos serviços
públicos, ou seja, atua no sentido de induzir as empresas a serem eficientes e
prestarem serviços de qualidade ao preço justo para a população.
Em um determinado Estado atuam diferentes empresas de serviços públicos sob o
regime de monopólio nas respectivas áreas de concessão. O trabalho do auditor
consiste em visitar estas empresas e auditar seus registros financeiros para detectar
se algum tipo de abuso está ocorrendo. A maior dificuldade do auditor é avaliar se
os custos apresentados pelas empresas são razoáveis, pois as empresas têm
diferentes tamanhos
O arquivo empresas.xls contêm registros do número de clientes e custos de
manutenção de 12 empresas de serviço público.
• Estime o modelo de regressão.
• Qual o custo de manutenção esperado para uma empresa com 75.000 clientes ?
• Suponha que uma empresa com 75.000 clientes reporte uma despesa com
manutenção de 1.500.000. Com base nos resultados da regressão linear, o auditor
deve ver este número como razoável ou excessivo ?
Exemplo
clientes (1000) despesas com manutenção (1000 US$)
25.3 484.6
36.4 672.3
37.9 839.4
45.9 694.9
53.4 836.4
66.8 681.9
78.4 1037
82.6 1095.6
93.8 1563.1
97.5 1377.9
105.7 1711.7
124.3 2138.6
XY 02,1532,33ˆ +=
Y = Despesa com manutenção
X = Nº de clientes
Qual o custo de manutenção esperado para uma empresa com 75.000 clientes ?
X = 75 →
Exemplo
82,11597502,1532,33ˆ =⋅+=Y
Y = Despesa com manutenção
X = Nº de clientes
75
1159,82
→ US$ 1.159.820,00
Suponha que uma empresa com 75.000 clientes reporte uma despesa com
manutenção de 1.500.000. Com base nos resultados da regressão linear, o auditor
deve ver este número como razoável ou excessivo ?
Podemos responder esta pergunta por meio de um intervalo de previsão para uma
observação.
Exemplo
( ) ( )[ ]hchhch StYStY εε 22 ˆ,ˆ +−
( ) ( )
( ) 











−
−
++=
∑=
n
i
i
h
h
XX
XX
n
S
1
2
2
22 1
1ˆεσεonde
Obtido na Anova
Quadrado médio do
resíduo 35236
Nº de observações = 12
t crítico com N-2 graus de liberdade ao nível de
significância αααα. No Excel =INVT(0.05;10) = 2,2281
Valor estimado pelo modelo de
regressão para variável dependente
(Yh = 1159,2) quando Xh = 75.
Média da variável dependente
70,67
O intervalo de confiança cobre o ponto (75, 1500), logo o valor do custo não é
excessivo.
Exemplo
X = 75 (1000 clientes)
Y = 1500 (1000 US$)
Exemplo modelo de regressão linear simples no Excel
1) Matriz de dados para regressão linear simples
1 variável dependente
1 variável independente
2) No menu Ferramentas escolha a
opção Análise de dados
3) Na caixa de diálogo escolha a
opção Regressão e clique em Ok
4) Informe os dados para regressão
na caixa de diálogo
Exemplo modelo de regressão linear simples no Excel
Caixa de diálogo regressão
Intervalo com os valores da
variável dependente
Intervalo com os valores da
variável independente
Rótulos:
nomes das
variáveis Marque se tem rótulo
Grava resultados da regressão
em uma nova planilha
Apresenta a
série de
resíduos
YY ˆ−
Gráfico com
os valores
observados
e previstos
Gráfico dos
resíduos
contra a
variável
explicativa
Gráfico para avaliar se a
hipótese de normalidade do
erro é satisfeita
Exemplo modelo de regressão linear simples no Excel
Planilha de Resultados
R2
2
R
Valor P
P(F>24,3492) = 0,0011
Valor P < 5%
rejeito H0 no
teste F
α β Valor P
P( |t| >2,1495) = 0,0638
Valor P
P( |t| >4,9345) = 0,0011
Intervalo de
confiança
4,9345- 4,9345
Valor P < 5%
rejeito H0 no
teste F
Yˆ YY ˆ−
Valores para
a plotagem de
probabilidade
normal
Exemplo modelo de regressão linear simples no Excel
Gráficos na planilha de Resultados
X Plotagem de resíduos
-20
0
20
0 10 20 30 40 50
X
Resíduos
X Plotagem de ajuste de linha
0
10
20
30
40
50
60
0 10 20 30 40 50
X
Y
Y
Previsto(a) Y
Plotagem de probabilidade normal
0
10
20
30
40
50
60
0 20 40 60 80 100
Percentil da amostra
Y
Útil na verificação da hipótese de
variância constante do erro
Útil na verificação da hipótese de
normalidade do erro (valores ao
redor de uma reta imaginária
indicam que a hipótese de
normalidade não foi violada)
Valores observados contra valores estimados
Útil na avaliação da qualidade do ajuste
Regressões que se tornam lineares por anamorfose
i
X
i
i
Y εββ 10=(exponencial)
iii XY εβ β1
0=(potência)
i
i
i
X
Y εββ ++=
1
10(hipérbole)
iiii XXY εβββ +++= 2
110
(polinomial)
As especificações a seguir são não-lineares, mas podem se tornar lineares por
anamorfose, ou seja, mediante alguma transformação das variáveis.
iii XY εββ lnlnlnln 10 +⋅+=
iii vXY +⋅+= *
1
*
0
*
ββ
ii YY ln*
=
0
*
0 ln ββ =
1
*
1 lnββ =
iiv εln=
iii XY εββ lnlnlnln 10 ++=
iii vXY +⋅+= *
1
*
0
*
ββ
ii YY ln*
=
0
*
0 ln ββ =
iiv εln=
ii XX ln*
=
iii XY εββ ++= *
10
i
i X
X 1*
=
iiii XXY εβββ +++= 21110
ii XX =1
2
2 ii XX =
Modelo linear
Modelo linear
Modelo linear
Modelo regressão linear múltipla
A substituição de variáveis é válida, pois a
relação entre X1 e X2 é não linear
Modelo de regressão linear múltipla
A variável dependente é uma função linear de K variáveis independentes (K≥≥≥≥2)
iKikiii XXXY εββββ +++++= K22110
Notação matricial
i=1,n
εβ += XY












=
nY
Y
Y
Y
M
2
1












=
knn
k
k
XX
XX
XX
X
1
212
111
1
1
1
M
L
β
β
β
β
=












0
1
M
k












=
nε
ε
ε
ε
M
2
1
Modelo de regressão linear múltipla
ββββ1, ββββ2, ββββ3,..., ββββk, σσσσ2 são parâmetros do modelo que devem ser estimados
[ ] i
k
Kiii XXY ε
β
β
β
+












⋅=
M
L 1
0
,1,1 i=1,n
Na regressão linear simples (K=1), um caso particular da regressão linear múltipla
Hipóteses assumidas pelo modelo de regressão linear múltipla
H1) A relação entre as variáveis é linear yi = β0 + β1xi1 + β2x2i +...+ βkxki + εi i=1,n.
H2) A variável explicativa X é fixa, ou seja, não é aleatória.
H3) As colunas da matriz X são linearmente independentes, ou seja, não há uma
relação linear perfeita entre duas ou mais as variáveis explicativas.
H4) Erros tem média nula: E(εi) = 0 para todo i=1,n.
H5) Variância do erro é constante (homocedasticidade):
V(εi) = σ2 para todo i=1,n.
H6) Erros não correlacionados: Cov(εi,εk) = 0 para todo i≠k.
H7) Erros tem distribuição Normal: εi ~ N(0,σ2) para todo i=1,n.
H2,H3,H4 e H5 ⇒⇒⇒⇒ εεεεi são independentes e identicamente distribuídos N(0,σσσσ2)
Basicamente, são as mesmas hipóteses assumidas na regressão linear simples
( ) YXXX TT 1
ˆ −
=β
























=
∑∑∑∑
∑∑∑∑
∑∑∑∑
∑∑∑
====
====
====
===
n
i
Ki
n
i
Kii
n
i
Kii
n
i
Ki
n
i
kii
n
i
i
n
i
ii
n
i
i
n
i
kii
n
i
ii
n
i
i
n
i
i
n
i
Ki
n
i
i
n
i
i
T
XXXXXX
XXXXXX
XXXXXX
XXXn
XX
1
2
1
2
1
1
1
1
2
1
2
2
1
21
1
2
1
1
1
21
1
2
1
1
1
11
2
1
1
OM
L
Estimador de Mínimos Quadrados Ordinários (MQO)
Modelo de regressão linear múltipla
























=
∑
∑
∑
∑
=
=
=
=
n
i
iKi
n
i
ii
n
i
ii
n
i
i
T
yx
yx
yx
y
YX
1
1
2
1
1
1
M
Equação de
projeção
[ ]














⋅=+++==
k
KKk XXXXXyEy
β
β
β
βββ
ˆ
ˆ
ˆ
1ˆˆˆ)|(ˆˆ 1
0
1110
M
LK
( ) ( ) 12ˆ −
=Σ XX T
σβ
kn
SQE
−
=2
ˆσ
Estimador de mínimos quadrados
Propriedades do estimador de mínimos quadrados
( ) ββ =ˆE
( )( )12
1 ,~ˆ −
+ XXN T
K σββ
Se as hipóteses H1 até H6 forem satisfeitas, o estimador de mínimos
quadrados é o melhor estimador linear não tendencioso (Teorema de
Gauss Markov)
Estimador não tendencioso
Matriz de covariância dos estimadores
O vetor de estimadores tem
distribuição normal multivariada
( )jjjj aN 2
,~ˆ σββ
Cada tem distribuição normal
ajj elemento da diagonal principal
da inversa de X’X
jβˆ
Exemplo modelo de regressão linear múltipla (KUTNER et al, 2004)
X1 X2 Y
68,5 16,7 174,4
45,2 16,8 164,4
91,3 18,2 244,2
47,8 16,3 154,6
46,9 17,3 181,6
66,1 18,2 207,5
49,5 15,9 152,8
52 17,2 163,2
48,9 16,6 145,4
38,4 16 137,2
87,9 18,3 241,9
72,8 17,1 191,1
88,4 17,4 232
42,9 15,8 145,3
52,5 17,8 161,1
85,7 18,4 209,7
41,3 16,5 146,4
51,7 16,3 144
89,6 18,1 232,6
82,7 19,1 224,1
52,3 16 166,5
Uma empresa de artigos infantis opera em 21 cidades de médio porte. A empresa
está analisando a possibilidade de expansão em outras cidades de médio porte e
para isso deseja investigar se a vendas (Y) em uma localidade podem ser preditas
com base no número de pessoas com até 16 anos de idades (X1) e a renda per
capita na localidade (X2). Valores expressos em milhares.
Atualmente a empresa está presente em 21 localidades (N = 21), cujos dados são
apresentados na tabela abaixo:
εβββ +++= 22110 XXY
Modelo de regressão linear múltipla a ser estimado
0
50
100
150
200
250
300
30 40 50 60 70 80 90 100
X1
Y
0
50
100
150
200
250
300
15 16 17 18 19 20
X2
Y
Exemplo modelo de regressão linear múltipla
( ) 2211021, XXXXYE i βββ ++=A equação de regressão
Os dados das 21 localidades podem ser dispostos em um gráfico, onde cada
localidade é representada por um ponto.
define um plano
passando pelo meio da nuvem de pontos. Este plano representa o valor esperado
das vendas em função da renda e da população abaixo de 16 anos em uma
localidade
populaçãorenda
vendas
Exemplo modelo de regressão linear múltipla
Modelo de regressão linear
Estimação dos coeficientes de regressão por mínimos quadrados
iiii XXY εβββ +++= ,22,10
1 68,5 16,7
1 45,2 16,8
1 91,3 18,2
1 47,8 16,3
1 46,9 17,3
1 66,1 18,2
1 49,5 15,9
1 52 17,2
1 48,9 16,6
1 38,4 16
1 87,9 18,3
1 72,8 17,1
1 88,4 17,4
1 42,9 15,8
1 52,5 17,8
1 85,7 18,4
1 41,3 16,5
1 51,7 16,3
1 89,6 18,1
1 82,7 19,1
1 52,3 16
X =
174,4
164,4
244,2
154,6
181,6
207,5
152,8
163,2
145,4
137,2
241,9
191,1
232
145,3
161,1
209,7
146,4
144
232,6
224,1
166,5
Y =
21,00 1.302,40 360,00
1.302,40 87.707,94 22.609,19
360,00 22.609,19 6.190,26
=XX T
3.820,00
249.643,35
66.072,75
=YX T
29,7289 0,0722 -1,9926
0,0722 0,0004 -0,0055
-1,9926 -0,0055 0,1363
( ) =
−1
XX T
( ) YXXX TT 1
ˆ −
=β









−
=










3655,9
4546,1
8571,68
ˆ
ˆ
ˆ
2
1
0
β
β
β
Dados
ε+++−= 21 37,945,186,68 XXY
Equação estimada
Exemplo modelo de regressão linear múltipla
Gráficos dos resíduos contra cada variável explicativa e a variável explica exibe
um padrão aleatório e a dispersão parece constante e, portanto, estão coerentes
com as hipóteses (pressupostos) de covariâncias nulas entre os erros e variância
do erro constante.
Exemplo modelo de regressão linear múltipla
O gráfico de probabilidade normal índica que a distribuição dos resíduos é
normal, portanto, coerente com a hipótese (pressuposto) de distribuição normal
para o erro.
Análise da variância - ANOVA
( )
( )∑
∑
=
=
−
−
== n
i
i
n
i
ii
YY
YY
SQT
SQR
R
1
2
1
2
2
ˆ
( ) kn
n
RR
−
−
−−=
1
11 22
( )[ ]1+−
==
knSQE
kSQR
QME
QMR
F
Modelo de regressão linear múltipla
Inferência Estatística no Modelo de Regressão Linear
Fonte de
variação
Graus de
liberdade
Soma dos quadrados Quadrados médios
Regressão K nyYXSQR
n
i
i
TT
2
1
ˆ 





−= ∑
=
β KSQRQMR /=
Resíduos n - (K+1) YXYYSQE TTT
βˆ−= ( )[ ]1/ −−= KnSQEQME
Total n -1 nyYYSQT
n
i
i
T
2
1






−= ∑
=
Exemplo modelo de regressão linear múltipla
Construção da ANOVA para o exemplo da cadeia de lojas de roupas juvenis
iii XXY 21 3655,94546,18571,68ˆ ++−=
SQE SQR SQT
Exemplo modelo de regressão linear múltipla
Construção da ANOVA para o exemplo da cadeia de lojas de roupas juvenis
Fonte de
variação
Soma dos
quadrados
(A)
Graus de
liberdade
(B)
Quadrado
médio
(C=A/B)
F
Regressão SQR
24015,28
2 12007,64 12007,64 / 121.1626 =
99,1035
Resíduo SQE
2180,93
N-3=18 121,1626
Total SQT
26196,21
N-1=20
ANOVA
2 variáveis
explicativas 3 coeficientes
estimados
Por isso N – 3
O quadrado médio dos
resíduos é uma estimativa
da variância do erro
2
ˆεσ
Coeficiente de
determinação R2
917,0
21,26196
28.240152
===
SQT
SQR
R
Teste t H0 : ββββ j = 0
H1 : ββββ j ≠≠≠≠ 0
( )1~
ˆ +−= kn
j
t
b
t
jβσ
( )[ ]1+−
=
knSQE
kSQR
F
H0 : ββββ 1 = ββββ 2 = ββββ 3 =...= ββββ k =0
H1 : pelo menos um ββββj ≠≠≠≠ 0
Teste F
t t rejeita Htabelado≥ ⇒ 0
F F rejeita Htabelado≥ ⇒ 0
Modelo de regressão linear múltipla
Inferência Estatística
Exemplo modelo de regressão linear múltipla
Modelo de regressão linear
Estimativas dos erros padrão dos coeficientes de regressão
( )12
2
ˆˆˆˆˆ
ˆˆ
2
ˆˆˆ
ˆˆˆˆ
2
ˆ
ˆ
ˆˆˆ
ˆˆˆ
ˆˆˆ
22120
21110
20100
−
⋅=












= XXS T
ε
βββββ
βββββ
βββββ
β σ
σσσ
σσσ
σσσ
0170,600347,3602ˆˆ 2
ˆˆ
00
=== ββ
σσErros padrão dos
estimadores dos
coeficientes de
regressão (valores
informados pelo ajuste
de regressão no Excel)
Resultado na ANOVA = 121,1626
29,7289 0,0722 -1,9926
0,0722 0,0004 -0,0055
-1,9926 -0,0055 0,1363
=βS
3.602,0347 8,7459 -241,4230
8,7459 0,0449 -0,6724
-241,4230 -0,6724 16,5158
2118,00449,0ˆˆ 2
ˆˆ
11
=== ββ
σσ
0640,45158,16ˆˆ 2
ˆˆ
22
=== ββ
σσ
Variâncias na diagonal principal
Covariâncias fora da diagonal principal
iiii XbbXbY ε+++= ,22,10
Exemplo modelo de regressão linear múltipla
Inferência do modelo
H0 : b1 = b2 = 0 ( não há regressão de Y em X1 e X2)
H1 : b1 ≠≠≠≠ 0 ou b2 ≠≠≠≠ 0 ( presença do efeito )
( )1+−
=
Kn
SQE
K
SQR
F
Fcalculado > Fcrítico logo rejeita H0
1) Estatística teste
4) F crítico ao nível de
significância de 5% = 3,5546
=FINV(0,05;2;18) no Excel
Distribuição F
Teste F: Testa o efeito conjunto das variáveis explicativas sobre a variável
dependente.
( )
1035,99
1221
1626,121
2
64,007.12
=
+−
=F
2) Distribuição da
estatística testes sob H0
( )
( )1,~
1
+−
+−
KnKF
Kn
SQE
K
SQR
3) Valor da estatística
teste na amostra
observada (Fcalculado)
5) Conclusão
Exemplo modelo de regressão linear múltipla
tcalculado > tcrítico logo rejeita H0
Distribuição t
Teste t: Testa a significância do coeficiente de regressão linear associado com
uma determinada variável explicativa.
H0 : b1 = 0 ( ausência do efeito )
H1 : b1 ≠≠≠≠ 0 ( presença do efeito )
3
ˆ
1
~
ˆ
ˆ
1
−Nt
b
β
σ
8682,6
2118,0
4546,1
==t
4) t crítico ao nível de
significância de 5% = 2,1
=TINV(0,05;18) no Excel
1
ˆ
1
ˆ
ˆ
β
σ
b
t =
1) Estatística teste 2) Distribuição da
estatística testes sob H0
3) Valor da estatística
teste na amostra
observada (tcalculado)
5) Conclusão
Inferência do modelo
Exemplo modelo de regressão linear múltipla
Distribuição t
Teste t: Testa a significância do coeficiente de regressão linear associado com
uma determinada variável explicativa.
H0 : b2 = 0 ( ausência do efeito )
H1 : b2 ≠≠≠≠ 0 ( presença do efeito )
3045,2
0640,4
3655,9
==t
3
ˆ
2
~
ˆ
ˆ
2
−Nt
b
β
σ2
ˆ
2
ˆ
ˆ
β
σ
b
t =
1) Estatística teste 2) Distribuição da
estatística testes sob H0
3) Valor da estatística
teste na amostra
observada (tcalculado)
4) t crítico ao nível de
significância de 5% = 2,1
=TINV(0,05;18) no Excel
5) Conclusão
tcalculado > tcrítico logo rejeita H0
Inferência do modelo
Exemplo modelo de regressão linear múltipla
Intervalos 95% de confiança para os coeficientes da equação de regressão
( )( ) ( )( )%5,2
ˆ
ˆ
%5,2 11 +−+− ≤
−
≤− Kn
b
ii
Kn t
bb
t
i
σ
95%
2339,57948,1941,2
0170,60
8571,68
1,2 0
0
≤≤−⇒≤
−−
≤− b
b
8995,10096,11,2
2118,0
4546,1
1,2 1
1
≤≤⇒≤
−
≤− b
b
9036,178274,01,2
0640,4
3655,9
1,2 2
2
≤≤⇒≤
−
≤− b
b
Distribuição t
K = número de variáveis independentes
n = tamanho da amostra
R2 ajustado
( )22
1
1
1 R
kn
n
Rajustado −
−
−
−=
Problema com a estatística R2 : sempre aumenta a medida que novas variáveis
são incluídas no modelo de regressão linear múltipla, independentemente da
variável adicionada.
No entanto cada variável adicionada ao modelo tem um custo, pois mais um
coeficiente deve ser estimado. Então é interessante ter uma medida que permita
avaliar o benefício para melhoria do modelo com a adição de uma nova variável
explicativa em relação ao custo de estimar mais um coeficiente.
Esta medida é o R2 ajustado
Onde
n é o tamanho da amostra
K é o número de parâmetros da equação de regressão.
O R2 ajustado é útil quando desejamos comparar dois modelos diferentes ou
comparar um mesmo modelo com tamanhos de amostras diferentes
[ ]khhh
T
h XXXx L211=
Previsão
Dado
( ) khkhh XXXYE βββ ˆˆˆ|ˆ
110 +++= K
h
T
hprevisão xSxs βˆ
2
=
khkhh XXY βββ ˆˆˆˆ
110 +++= K
2
ˆ
2 ˆσβ += h
T
hprevisão xSxs
Modelo de regressão linear múltipla
Previsão do valor esperado da variável dependente dado Y
Previsão do valor da variável dependente dado Y
Quadrado médio
dos resíduos
Valor obtido na
ANOVA
Erro padrão das
previsões
Exemplo
Calcule a previsão das vendas esperadas nas cidades A e B:
Cidade A
número de pessoas com até 16 anos de idades (X1) : 65,4
renda per capita na localidade (X2) : 17,6
Cidade B
número de pessoas com até 16 anos de idades (X1) : 53,1
renda per capita na localidade (X2) : 17,7
10,1916,1737,94,6545,186,68 =⋅+⋅+−=
15,1747,1737,91,5345,186,68 =⋅+⋅+−=
[ ]6,174,651=T
hx
[ ]7,171,531=T
hx
Previsão da venda esperada
na cidade A E(Y|X)
Previsão da venda esperada
na cidade B E(Y|X)
Exemplo
Intervalos de confiança para as vendas esperadas nas cidades A e B:
Cidade A
número de pessoas com até 16 anos de idades (X1) : 65,4
renda per capita na localidade (X2) : 17,6
Cidade B
número de pessoas com até 16 anos de idades (X1) : 53,1
renda per capita na localidade (X2) : 17,7
1626,121ˆ 2
=εσ
[ ]6,174,651=T
hx
[ ]7,171,531=T
hx
=βS
3.602,0347 8,7459 -241,4230
8,7459 0,0449 -0,6724
-241,4230 -0,6724 16,5158
Resultado da ANOVA slide 52
Matriz de covariâncias dos
estimadores slide 54
Erro padrão das estimativas slide 60
h
T
hprevisão xSxs βˆ
2
´ =
Cidade A = 11,35
Cidade B = 11,93
Exemplo
Intervalos de confiança para as vendas esperadas nas cidades A e B:
E(Y|X) é a média das
vendas dado X
( ) 2
)1(
2
)1(
2
|
2
previsãokNprevisãokN stprevisãoXYEstprevisão 





+≤≤





− +−+−
αα
Valor crítico da t com N-(k+1) graus de liberdade ao nível de confiança 1-alfa,
podem ser obtidos no Excel, por exemplo, para 95% de confiança =INVT(0,05;18),
cujo valor é aproximadamente 2,101
( ) 9,214|3,167 ≤≤ XYE
( ) 2,199|1,149 ≤≤ XYE
Cidade A
Cidade B
Note que os intervalos de confiança tem grande amplitude apesar do elevado R2
(0,92), portanto, valores elevados de R2 não garantem necessariamente previsões
precisas
Exemplo modelo de regressão linear múltipla no Excel
1) Matriz de dados para regressão linear múltipla
1 variável dependente
2 variável independentes 2) No menu Ferramentas escolha a
opção Análise de dados
3) Na caixa de diálogo escolha a
opção Regressão e clique em Ok
4) Informe os dados para regressão
na caixa de diálogo
Exemplo modelo de regressão linear múltipla no Excel
Caixa de diálogo regressão
Intervalo com os valores da
variável dependente
Intervalo com os valores da
variável independente
Rótulos:
nomes das
variáveis Marque se tem rótulo
Grava resultados da regressão
em uma nova planilha
Apresenta a
série de
resíduos
YY ˆ−
Gráfico com
os valores
observados
e previstos
Gráfico dos
resíduos
contra a
variável
explicativa
Gráfico para avaliar se a
hipótese de normalidade do
erro é satisfeita
Exemplo modelo de regressão linear múltipla no Excel
0
ˆβ
1
ˆβ
2
ˆβ
Exemplo modelo de regressão linear múltipla no Excel
Gráficos na planilha de Resultados
X1 Plotagem de resíduos
-30,00
-20,00
-10,00
0,00
10,00
20,00
30,00
0 20 40 60 80 100
X1
Resíduos
X2 Plotagem de resíduos
-40,00
-20,00
0,00
20,00
40,00
0 5 10 15 20 25
X2
Resíduos
X1 Plotagem de ajuste de linha
0
50
100
150
200
250
300
0 50 100
X1
Y
Y
Previsto(a) Y
X2 Plotagem de ajuste de linha
0
100
200
300
0 10 20 30
X2
Y Y
Previsto(a) Y
Exemplo modelo de regressão linear múltipla no Excel
Gráficos na planilha de Resultados
Plotagem de probabilidade normal
0
100
200
300
0 50 100 150
Percentil da amostra
Y
Problemas que podem acontecer em um modelo de
regressão linear
Multicolinearidade: Quando há relações lineares exatas ou aproximadamente
lineares entre as variáveis explicativas, a redundância entre as varáveis pode
resultar em estimativas com valores elevados para o erro padrão ou impossibilitar
a estimação dos coeficientes de regressão no caso de relações lineares exatas.
Heterocedasticidade: A variância do erro não é uma constante, (violação da
hipótese de homocedasticidade). Não raro acontece quando a amostra de
observações é um corte transversal de unidades com “tamanhos” heterogêneos.
Na presença de heterocedasticidade o estimador MQO permanece não
tendencioso, mas deixa de ser o melhor estimador. Nestas situações deve-se
utilizar o métodos mínimos quadrados ponderados (MQP).
Autocorrelação: Os erros são autocorrelacionados, violação da hipótese de
covariância nula entre os erros. Problema frequente quando a amostra de dados é
formada por séries temporais. Na presença de autocorrelação serial dos erros o
estimador MQO permanece não tendencioso, mas deixa de ser o melhor
estimador. Nestas situações deve-se utilizar o métodos mínimos quadrados
generalizados (MQG).
Multicolinearidade
Ocorre quando qualquer variável independente é altamente
correlacionada com um conjunto de outras variáveis independentes.
No caso extremo, uma variável independente guarda uma relação linear
com outra variável independente. Neste caso não é possível obter as
estimativas de mínimos quadrados.
Consequências da multcolinearidade:
• Estimativas mais imprecisas
• Erros-padrão maiores
• Dificuldade da separação dos efeitos de cada variável
Soluções para contornar a multicolineardade.
• Coletar mais dados
• Eliminar variáveis
• Usar componentes principais para reduzir a dimensão dos dados
Avaliação da Multicolinearidade
1) Coeficientes de correlação simples entre as variáveis independentes
2) Tolerância: quantia de variabilidade da variável dependente não
explicada pelas outras variáveis independentes. Valores altos significam
um pequeno grau de multicolinearidade.
Tolerância= 1–Rk
2, se menor que 0,1 indica multicolinearidade
Onde Rk
2 é o coeficiente de determinação da variável independente k nas
demais variáveis independentes.
3) Fator de inflação da variância (VIF): é o inverso da tolerância. Valores
altos significam maiores níveis de multicolinearidade.
VIF = 1 / Tolerância, se maior do que 10 já indica multicolinearidade
Referências Bibliográficas
Hanke, J.E.; Wichern, D.W. Pronósticos en los negocios, Naucalpan de
Juárez: Pearson Education de México, 2006.
Kutner, M.H.; Nachtsheim, C.J.; Neter, J. Applied linear regression models,
New York: McGraw-Hill Irwin, 2004.

Mais conteúdo relacionado

Mais procurados

Probabilidade e estatística - Variáveis Aleatórias
Probabilidade e estatística - Variáveis AleatóriasProbabilidade e estatística - Variáveis Aleatórias
Probabilidade e estatística - Variáveis AleatóriasLucas Vinícius
 
Analise de Sensibilidade
Analise de SensibilidadeAnalise de Sensibilidade
Analise de SensibilidadeVivi Basilio
 
Regressão - aula 04/04
Regressão - aula 04/04Regressão - aula 04/04
Regressão - aula 04/04Rodrigo de Sá
 
Edo
EdoEdo
Edowvnf
 
ANPEC/2019 - Propriedades dos Estimadores de Mínimos Quadrados
ANPEC/2019 - Propriedades dos Estimadores de Mínimos QuadradosANPEC/2019 - Propriedades dos Estimadores de Mínimos Quadrados
ANPEC/2019 - Propriedades dos Estimadores de Mínimos QuadradosAnselmo Alves de Sousa
 
Introdução ao modelo clássico de regressão linear
Introdução ao modelo clássico de regressão linearIntrodução ao modelo clássico de regressão linear
Introdução ao modelo clássico de regressão linearFelipe Pontes
 

Mais procurados (20)

Tópico 4 regressão linear simples 01
Tópico 4   regressão linear simples 01Tópico 4   regressão linear simples 01
Tópico 4 regressão linear simples 01
 
Modelo de Regressão nao-linear
Modelo de Regressão nao-linearModelo de Regressão nao-linear
Modelo de Regressão nao-linear
 
Probabilidade e estatística - Variáveis Aleatórias
Probabilidade e estatística - Variáveis AleatóriasProbabilidade e estatística - Variáveis Aleatórias
Probabilidade e estatística - Variáveis Aleatórias
 
Correlação Estatística
Correlação EstatísticaCorrelação Estatística
Correlação Estatística
 
03 tópico 2 - regressão multipla
03   tópico 2 - regressão multipla03   tópico 2 - regressão multipla
03 tópico 2 - regressão multipla
 
04 tópico 3 - regressão multipla
04   tópico 3 - regressão multipla04   tópico 3 - regressão multipla
04 tópico 3 - regressão multipla
 
ECONOMETRIA.pdf
ECONOMETRIA.pdfECONOMETRIA.pdf
ECONOMETRIA.pdf
 
Analise de Sensibilidade
Analise de SensibilidadeAnalise de Sensibilidade
Analise de Sensibilidade
 
Regressão - aula 04/04
Regressão - aula 04/04Regressão - aula 04/04
Regressão - aula 04/04
 
Tópico 09 - Integral
Tópico 09 - IntegralTópico 09 - Integral
Tópico 09 - Integral
 
Efeito substituição e efeito renda
Efeito substituição e efeito rendaEfeito substituição e efeito renda
Efeito substituição e efeito renda
 
Edo
EdoEdo
Edo
 
ANPEC/2019 - Propriedades dos Estimadores de Mínimos Quadrados
ANPEC/2019 - Propriedades dos Estimadores de Mínimos QuadradosANPEC/2019 - Propriedades dos Estimadores de Mínimos Quadrados
ANPEC/2019 - Propriedades dos Estimadores de Mínimos Quadrados
 
Estudo da reta
Estudo da retaEstudo da reta
Estudo da reta
 
Aula 30 testes de hipóteses
Aula 30   testes de hipótesesAula 30   testes de hipóteses
Aula 30 testes de hipóteses
 
Introdução ao modelo clássico de regressão linear
Introdução ao modelo clássico de regressão linearIntrodução ao modelo clássico de regressão linear
Introdução ao modelo clássico de regressão linear
 
Regressão Linear Múltipla
Regressão Linear MúltiplaRegressão Linear Múltipla
Regressão Linear Múltipla
 
Função de Distribuição Acumulada
Função de Distribuição AcumuladaFunção de Distribuição Acumulada
Função de Distribuição Acumulada
 
Modelo islm
Modelo islmModelo islm
Modelo islm
 
Variáveis Aleatórias Multidimensionais
Variáveis Aleatórias MultidimensionaisVariáveis Aleatórias Multidimensionais
Variáveis Aleatórias Multidimensionais
 

Semelhante a Econometria modelos de_regressao_linear

Apostila regressao linear
Apostila regressao linearApostila regressao linear
Apostila regressao linearcoelhojmm
 
Monica Barros - Econometria - ENCE - 2010 - Resumo Capitulo 7 Gujarati
Monica Barros - Econometria - ENCE - 2010 - Resumo Capitulo 7 GujaratiMonica Barros - Econometria - ENCE - 2010 - Resumo Capitulo 7 Gujarati
Monica Barros - Econometria - ENCE - 2010 - Resumo Capitulo 7 GujaratiMonica Barros
 
AMD - Aula n.º 8 - regressão linear simples.pptx
AMD - Aula n.º 8 - regressão linear simples.pptxAMD - Aula n.º 8 - regressão linear simples.pptx
AMD - Aula n.º 8 - regressão linear simples.pptxNunoSilva599593
 
Anac 2012 Resolução 53-60
Anac 2012 Resolução 53-60Anac 2012 Resolução 53-60
Anac 2012 Resolução 53-60jlcerq
 
FORMA ANALÍTICA E MÉTODOS DAS DIFERENÇAS FINITAS APLICADO AO POTENCIAL DENTRO...
FORMA ANALÍTICA E MÉTODOS DAS DIFERENÇAS FINITAS APLICADO AO POTENCIAL DENTRO...FORMA ANALÍTICA E MÉTODOS DAS DIFERENÇAS FINITAS APLICADO AO POTENCIAL DENTRO...
FORMA ANALÍTICA E MÉTODOS DAS DIFERENÇAS FINITAS APLICADO AO POTENCIAL DENTRO...JÚLIO PEIXOTO
 
Variaveis+aleatorias
Variaveis+aleatoriasVariaveis+aleatorias
Variaveis+aleatoriasFagner Talles
 
Função do 2º Grau
Função do 2º GrauFunção do 2º Grau
Função do 2º Grauprofmribeiro
 
As equações do segundo grau são abordadas na história da matemática desde a é...
As equações do segundo grau são abordadas na história da matemática desde a é...As equações do segundo grau são abordadas na história da matemática desde a é...
As equações do segundo grau são abordadas na história da matemática desde a é...leosilveira
 
matematica e midias
matematica e midiasmatematica e midias
matematica e midiasiraciva
 

Semelhante a Econometria modelos de_regressao_linear (20)

Apostila regressao linear
Apostila regressao linearApostila regressao linear
Apostila regressao linear
 
Monica Barros - Econometria - ENCE - 2010 - Resumo Capitulo 7 Gujarati
Monica Barros - Econometria - ENCE - 2010 - Resumo Capitulo 7 GujaratiMonica Barros - Econometria - ENCE - 2010 - Resumo Capitulo 7 Gujarati
Monica Barros - Econometria - ENCE - 2010 - Resumo Capitulo 7 Gujarati
 
AMD - Aula n.º 8 - regressão linear simples.pptx
AMD - Aula n.º 8 - regressão linear simples.pptxAMD - Aula n.º 8 - regressão linear simples.pptx
AMD - Aula n.º 8 - regressão linear simples.pptx
 
Regressao simples
Regressao simplesRegressao simples
Regressao simples
 
Anac 2012 Resolução 53-60
Anac 2012 Resolução 53-60Anac 2012 Resolução 53-60
Anac 2012 Resolução 53-60
 
FORMA ANALÍTICA E MÉTODOS DAS DIFERENÇAS FINITAS APLICADO AO POTENCIAL DENTRO...
FORMA ANALÍTICA E MÉTODOS DAS DIFERENÇAS FINITAS APLICADO AO POTENCIAL DENTRO...FORMA ANALÍTICA E MÉTODOS DAS DIFERENÇAS FINITAS APLICADO AO POTENCIAL DENTRO...
FORMA ANALÍTICA E MÉTODOS DAS DIFERENÇAS FINITAS APLICADO AO POTENCIAL DENTRO...
 
Funções.saa
Funções.saaFunções.saa
Funções.saa
 
Funções
Funções Funções
Funções
 
1 ano função afim
1 ano   função afim1 ano   função afim
1 ano função afim
 
Função do 1º grau
Função do 1º grauFunção do 1º grau
Função do 1º grau
 
Unidade 5 - estastitica
Unidade 5 - estastiticaUnidade 5 - estastitica
Unidade 5 - estastitica
 
Variaveis+aleatorias
Variaveis+aleatoriasVariaveis+aleatorias
Variaveis+aleatorias
 
Função do 2º Grau
Função do 2º GrauFunção do 2º Grau
Função do 2º Grau
 
Atividades smte2012
Atividades smte2012Atividades smte2012
Atividades smte2012
 
As equações do segundo grau são abordadas na história da matemática desde a é...
As equações do segundo grau são abordadas na história da matemática desde a é...As equações do segundo grau são abordadas na história da matemática desde a é...
As equações do segundo grau são abordadas na história da matemática desde a é...
 
Regressão Linear I
Regressão Linear IRegressão Linear I
Regressão Linear I
 
Funca Afim
Funca AfimFunca Afim
Funca Afim
 
Regressão aula
Regressão aulaRegressão aula
Regressão aula
 
matematica e midias
matematica e midiasmatematica e midias
matematica e midias
 
Regressao
RegressaoRegressao
Regressao
 

Econometria modelos de_regressao_linear

  • 1. Modelos de Regressão Linear Prof. José Francisco professorjfmp@hotmail.com Econometria
  • 2. Regressão Objetivo: Estabelecer uma função matemática que descreva a relação entre uma variável contínua (variável explicada ou dependente) e uma ou mais variáveis explicativas ou independentes. y = f(x1,x2,...,xK) + εεεε y denota a variável dependente. x1,x2,...,xK denotam as variáveis independentes. f(x1,x2,...,xK) descreve a variação sistemática εεεε representa a variação não sistemática (erro aleatório) Modelos de regressão (função f) podem ser lineares ou não lineares. A função f não é conhecida e deve ser inferida a partir das observações das variáveis y, x1,x2,...,xk.
  • 3. Regressão Linear Técnica estatística que pode ser usada para analisar a relação entre uma única variável dependente (explicada) e um conjunto de variáveis independentes (explicativas). O objetivo da análise de regressão linear consiste em identificar uma equação linear que permita prever o valor da variável dependente em função dos valores conhecidos das variáveis independentes. Regressão linear simples: apenas uma variável independente. Exemplo: variável dependente = vendas variável independente = despesas com propaganda Regressão linear múltipla: duas ou mais variáveis independentes. Exemplo: variável dependente = preço do imóvel variáveis independentes = área, nº de quartos, nº de banheiros, idade
  • 4. Motivação (HANKE & WICHERN, 2006) Uma empresa transportadora deseja estimar o custo de agregar carga a um caminhão parcialmente cheio. A empresa acredita que o único incremento de custo, decorrente da agregação de carga, é o custo adicional de combustível, pois o rendimento (milhas por galão) seria menor. Admite-se que a frota da transportadora é formada por caminhões idênticos. No período 2009-2012 foram realizadas 5.428 viagens e uma amostra aleatória de 40 viagens foi tomada. Na tabela ao lado são apresentados os pesos e os rendimentos (milhas/galão) das 40 viagens selecionadas na amostra. Um incremento no peso reduz o rendimento A relação entre as variáveis não é exata (estocástica) Diagrama de dispersão representação gráfica que permite visualizar a relação/associação entre duas variáveis
  • 5. Motivação A boa aderência da nuvem de pontos ao redor de um reta imaginária indica que a relação entre as duas variáveis pode ser aproximada por uma relação linear. A essência da relação entre o peso e o rendimento pode ser expressa por uma reta. Seja Y o rendimento em milhas/galão e X o peso da carga (1000 libras), então temos o seguinte modelo de regressão linear simples: A identificação desta reta (estimação dos parâmetros do modelo) pode ser efetuada por meio do estimador de mínimos quadrados ordinários (MQO). y = β0 + β1x + ε β0 e β1 são constantes não conhecidas ε é um termo aleatório com distribuição normal (ε ~ N(0,σ2)) modelo
  • 6. Motivação Neste caso o rendimento (y) é explicado pelo peso da carga (x), então, y=f(x): y = rendimento = variável dependente x = peso da carga = variável independente A relação estocástica entre as duas variáveis pode ser modelada da seguinte forma: y = β0 + β1x + ε Onde: β0 e β1 são coeficientes desconhecidos da reta que relaciona as variáveis x e y (estimados a partir dos dados da amostra). ε é um termo aleatório (erro) que representa a imprecisão na relação entre x e y.
  • 7. Motivação Para uma carga de 70 mil libras (X= 70) espera-se um rendimento de 4,62 milhas/galão ( Ê(Y|X) = 4,62 ) E(Y|X) = 8,8484 – 0,0604 x 70 ≅≅≅≅ 4,62 Equação da reta estimada por MQO Ê(Y|X) = 8,8484 – 0,0604 X X Y
  • 8. Motivação Estimação por mínimos quadrados ordinários (MQO) Modelo ajustado Ê(Y|X) = 8,8484 – 0,0604 X xy 10 ˆˆ β−=β ( )( ) ( )∑ ∑ = = − −− =β n i i n i ii xx yyxx 1 2 1 1 ˆ Estimador MQO X é a variável independente ou explicativa, neste caso o peso ( é a média amostral de X) Y é a variável dependente ou explicada, neste caso é o rendimento (milhas por galão), é a média amostral de Y n é número de observações, neste caso 40 0 ˆβ 1 ˆβ X Y
  • 9. Motivação Interpretação da equação estimada Ê(Y|X) = 8,8484 – 0,0604 X Cada incremento de 1000 libras (∆∆∆∆X=1) na carga implica em uma redução, média, do rendimento (milhas/galão) da ordem de 0,0604 milhas/galão. A transportadora paga $ 1,25 por galão de diesel, então qual o incremento no custo para transportar 1000 libras adicionais por um trajeto de 100 milhas, dado que o frete é o médio (68,6 1000 libras)?
  • 10. Motivação 4,7 milhas/galão 100 milhas x 1,25 $/galão = $ 26,60 O custo da mesma viagem com 1000 libras adicionais é: (4,7 – 0,0604) milhas/galão 100 milhas x 1,25 $/galão = $ 26,94 Ou seja, 1000 libras adicionais na carga aumenta o custo em 34 centavos centróide 6,68=X 7,4=Y A transportadora paga $ 1,25 por galão de diesel, então qual o custo para transportar 1000 libras de carga em um trajeto de 100 milhas ? O rendimento médio é 4,7 milhas/galão, logo para um trajeto de 100 milhas com trasporte do frete médio (68,6 1000 libras), em média, o custo total é:
  • 11. Modelos de regressão linear Modelo de regressão linear simples: uma variável dependente explicada por uma variável independente. y = β0 + β1x + ε Modelo de regressão linear múltipla: Uma variável dependente explicada por pelo menos duas variáveis independentes. y = β0 + β1x1 + ... + βKxK + ε (K≥2) Objetivo: Identificar uma função linear que permita explicar uma variável dependente (y) em função das variáveis explicativas (x), ou seja, como y varia de acordo com mudanças em x.
  • 12. Significado do erro εεεε O erro ε representa: Todos os outros fatores que afetam a variável dependente Y, mas que não estão contempladas nas variáveis explicativas X. Erros de medição. Forma funcional inadequada, por exemplo, y = β0 + β1x ou y = β0 + β1x + β1x2 ? Inerente variabilidade no comportamento dos agentes econômicos.
  • 13. Modelo de Regressão Linear Simples Equação de regressão populacional: y = β0 + β1x + ε (apenas uma variável independente) Os coeficientes ββββ0 e ββββ1 não são conhecidos e devem ser estimados a partir de uma amostra aleatória de tamanho n da população: Amostra aleatória de tamanho n ⇒ (xi , yi), i=1,n Em cada unidade amostrada tem-se que yi = β0 + β1xi + εi i=1,n Erro, variável aleatória não-observável Componente determínistica
  • 14. Hipóteses assumidas pelo modelo H1) A relação entre as variáveis é linear yi = β0 + β1xi + εi i=1,n: H2) Média nula: E(εi) = 0 para todo i=1,n H3) Variância constante: V(εi) = σ2 para todo i=1,n H4) Erros não correlacionados: Cov(εi,εk) = 0 para todo i≠k H5) Distribuição Normal: εi ~ N(0,σ2) para todo i=1,n εi são independentes e identicamente distribuídos N(0,σσσσ2) H6) A variável explicativa X é fixa, i.e., não é estocástica Modelo de Regressão Linear Simples
  • 15. ( ) 2 σ=yV ε+β+β= xy 10 Como o valor esperado do erro é zero E(εεεε)=0, o valor esperado de y condicionado ao valor de x é igual a: ( ) ( )ε+β+β= xExyE 10| ( ) ( )ε+β+β= ExxyE 10| ( ) xxyE 10| β+β= Por hipótese a variável independente não é aleatória, assim tem-se: ( )2 10 ,~ σβ+β xNy Como o erro tem distribuição Normal com média 0 e variância σσσσ2 Modelo de Regressão Linear Simples
  • 16. ( ) xxyE 10| ββ += Modelo de Regressão Linear Simples Reta de regressão
  • 17. Estimador de mínimos quadrados Modelo de Regressão Linear Simples yi = β0 + β1xi + εi ⇒ εi = yi - β0 - β1xi ( )[ ]∑∑ == β+β−=ε= n i ii n i i xyf 1 2 10 1 2 ( )[ ]∑= ββ β+β−= n i ii xyfMin 1 2 10 , 10 ( )[ ] 00 1 10 0 =β+β−⇒= β∂ ∂ ∑= n i ii xy f ( )[ ] 00 1 10 1 =β+β−⇒= β∂ ∂ ∑= n i iii xyx f ∑∑ == =β+β n i i n i i yxn 11 10 ∑∑∑ === =β+β n i ii n i i n i i yxxx 11 2 1 1 0 Soma dos quadrados dos erros As estimativas de ββββ0 e ββββ1 devem minimizar a soma sos quadrados dos desvios No ponto de mínimo as derivadas parciais são nulas Sistema de equações normais A solução deste sistema fornece os estimadores de ββββ0 e ββββ1
  • 18. Estimador de mínimos quadrados Modelo de Regressão Linear Simples ∑∑ == =β+β n i i n i i yxn 11 10 ∑∑∑ === =β+β n i ii n i i n i i yxxx 11 2 1 1 0 Solução do sistema de equações normais xy 10 ˆˆ β−=β ( )( ) ( )∑ ∑ = = − −− =β n i i n i ii xx yyxx 1 2 1 1 ˆ Sistema de equações normais Estimadores de mínimos quadrados
  • 19. Estimador de mínimos quadrados Modelo de Regressão Linear Simples ii xy 10 ˆˆˆ β+β= Valor estimado da variável dependente y dado que x é igual a xi Resíduo da i-ésima observação é igual a diferença entre o valor observado e o valor estimado da variável yi ( )iii iii xy yy 10 ˆˆˆ ˆˆ β+β−=ε −=ε Equação de regressão estimada ( ) xxyEy 10 ˆˆ|ˆ β+β==
  • 20. ( )∑ ∑ = = − = n i i n i i xxn x 1 2 1 22 2 ˆ 0 ε β σ σ ∑= − = n i i xx 1 22 2 2 ˆ 1 ε β σ σ Se as hipóteses H1 até H6 forem satisfeitas, os estimadores de mínimos quadrados são estimadores lineares não tendenciosos de variância mínima (Teorema de Gauss Markov) ( ) 00 ˆ β=βE ( ) 11 ˆ β=βE ( )2 ˆ00 0 ,~ˆ β σββ N ( )2 ˆ11 1 ,~ˆ β σββ N ( ) 2 ˆˆ 2 ˆ ˆ 1 2 10 1 2 2 − −− = − = ∑∑ == n xy n u n i ii n i i ββ σε Modelo de regressão linear simples Estimador da variância do erro O estimador MQO é não tendencioso Os estimadores são normalmente distribuídos
  • 21. Modelo de regressão linear simples Decomposição do erro Y X Y Y = b0 + b1X (reta de regressão)^ Yi (valor observado) Yi -Y Yi (valor estimado pela reta) ^ Yi - Y^ Yi - Média da variável dependente ^ Yi (resíduo)
  • 22. Modelo de regressão linear simples Decomposição do erro SQT é a soma dos quadrados dos desvios de Y em relação a sua média, logo SQT é uma medida da variação total da variável dependente. ( )∑= −= n i i YYSQT 1 2 Y X Y
  • 23. Modelo de regressão linear simples Decomposição do erro SQR é a soma dos quadrados dos desvios entre a reta de regressão e a média da variável dependente Y. SQR é uma medida da variação total da variável dependente explicada pela regressão. ( )∑= −= n i i YYSQR 1 2 ˆ Y X Y Y corresponde as estimativas definidas pela reta de regressão ^
  • 24. Modelo de regressão linear simples Decomposição do erro SQE é a soma dos quadrados dos desvios de Y em relação a reta de regressão (resíduos). SQE expressa a parcela da variação de Y não explicada pela reta de regressão. Y X ( )∑= −= n i ii YYSQE 1 2 ˆ Y corresponde as estimativas definidas pela reta de regressão ^
  • 25. Decomposição da soma de quadrados total ( ) ( ) ( )∑∑ ∑ == = −+−=− n i ii n i n i iii YYYYYY 1 2 1 1 22 ˆˆ SQT = SQE + SQR SQT = Soma de Quadrados Total (variação total da variável dependente) SQR = Soma de Quadrados da Regressão (parcela da variação total explicada pelo modelo) SQE = Soma de Quadrados dos Erros (Resíduos) (parcela da variação total não explicada pelo modelo) n é o total de observações na amostra Modelo de regressão linear simples
  • 26. ( ) ( ) SQT SQE YY YY SQT SQR R n i i n i ii −= − − == ∑ ∑ = = 1 ˆ 1 2 1 2 2 Coeficiente de determinação Modelo de regressão linear simples 10 2 ≤≤ R Se R2 estiver próximo de 1, a variável x explica a maior parte da variação total de y. Neste caso, a variável x é uma boa preditora da variável y. Se R2 estiver próximo de 0, a variável x explica muito pouco da variação total de y. Neste caso, a variável x não é uma boa preditora da variável y.
  • 27. Análise da variância (ANOVA) Modelo de regressão linear simples 2 ˆεσ Estimador da variância do erro SQT SQR R =2 ( )2− = nSQE SQR F Fonte de variação Graus de liberdade Soma dos quadrados Quadrados médios Regressão 1 ( )∑= −= n i i XxSQR 1 22 1 ˆβ 1/SQRQMR = Resíduos n-2 ( )∑= −= n i ii yySQE 1 2 ˆ ( )2/ −= nSQEQME Total n-1 2 1 2 YnySQT n i i −= ∑=
  • 28. No exemplo da transportadora tem-se que Modelo de regressão linear simples R2 = 0,76, ou seja, 76% da variação do rendimento é explicada pela equação de regressão Y = 8,8484 – 0,0604X SQR SQE SQT Resultados gerados pelo Excel equação de regressão Y = 8,8484 – 0,0604X Análise da variância (ANOVA)
  • 29. 2 ˆ 1 ~ ˆ ˆ 1 −= Ntt β σ β tcrítico é um valor tabelado para um nível de significância αααα, no Excel use INVT(alfa;N-2) Modelo de regressão linear simples Inferência Estatística Teste t Avalia a significância do coeficiente de regressão linear associado com uma determinada variável explicativa. Sob H0 t > tcrítico rejeita H0 t < tcrítico aceita H0 Modelo de regressão linear simples: Y = ββββ0 + ββββ1X + εεεε Estatística teste H0 : ββββ1 = 0 ( ausência do efeito ) H1 : ββββ1 ≠≠≠≠ 0 ( presença do efeito )
  • 30. No exemplo da transportadora tem-se que Modelo de regressão linear simples Resultados gerados pelo Excel Inferência Estatística (teste t) 1 ˆβ 1 ˆˆβ σ 9052,10 0055,0 0604,0 ˆ ˆ 1 ˆ 1 −= − == β σ β t H0 : ββββ1 = 0 H1 : ββββ1 ≠≠≠≠ 0 Ao nível de significância α de 5% o valor tabelado (tcrítico) de uma t com (40-2) = 38 graus de liberdade é 2,024 =INVT(0,05;38) Valor absoluto do t calculado maior que tcrítico, logo H0 é rejeitada. 2 ˆ ~ ˆ ˆ −= Ntt β σ β Estatística teste t calculado
  • 31. Exemplo modelo de regressão linear simples Região de rejeição Distribuição t No exemplo da transportadora tem-se que Inferência Estatística (teste t) 2,024- 2,024 tcalculado = -10,9052 tcrítico = INVT(0,05;38) Região de rejeição bilateral H0 : ββββ1 = 0 H1 : ββββ1 ≠≠≠≠ 0 0 1 ˆ 1 ˆ ˆ β σ β =t
  • 32. Exemplo modelo de regressão linear simples O valor p (p-value) fornece uma forma direta de decidir entre a rejeição e a não rejeição da hipótese nula H0 P-valor é a probabilidade de encontrar um valor para a estatística teste mais extremo que o valor calculado para a estatística teste (tcalculado). Se o valor p é menor que os níveis usuais de significância (1% ou 5%) devemos concluir pela rejeição da hipótese nula Cálculo do valor p no exemplo da transportadora: tcalculado = -10,9052 valor p = P(t mais extremo que tcalculado) = P (t ≤ -10,9052 ou t ≥ 10,9052) = 2,91E-13 Inferência Estatística (teste t e valor p) No Excel =DISTT(10,9052;38;2) Probabilidade muito pequena e menor que o nível de significância adotado (5%), logo a hipótese nula (H0) deve ser rejeitada H0 : ββββ1 = 0 H1 : ββββ1 ≠≠≠≠ 0
  • 33. Exemplo modelo de regressão linear simples Inferência Estatística (teste t e p-valor) Resultados gerados pelo Excel Valor p menor que o nível de significância adotado (5%), logo a hipótese nula (H0) deve ser rejeitada
  • 34. 2 1 11 2 111 1 ˆˆˆˆ αβαβ σββσβ −− ⋅+≤≤⋅− tt Modelo de regressão linear simples Intervalo de confiança 100(1-αααα)% Inferência Estatística (intervalo de confiança) No exemplo da transportadora tem-se que Resultados gerados pelo Excel O intervalo -0,0716 ≤ β1 ≤ -0,0492 tem 95% de confiança de conter o valor do coeficiente de regressão da variável peso Valores tabelados
  • 35. Previsor ( ) hhh XXYE 10 ˆˆ|ˆ ββ += Erro de previsão ( ) ( ) ( ) ( ) hhhhhh XXYEXYE 1100 ˆˆ|ˆ| ββββε −+−=−= ( ) ( ) ( )             − − += ∑= n i i h h XX XX n S 1 2 2 22 1 ˆεσε Intervalo de previsão ( ) ( ) ( ) ( )[ ]hchhhchh StXYEStXYE εε 22 |ˆ,|ˆ +− Modelo de regressão linear simples Previsão do valor esperado 2 Re ˆ − = n sSQ εσ
  • 36. Dado XT+h prever YT+h Previsor hh XY 1 ˆˆˆ 0 ββ += Erro de previsão ( ) ( ) hhhhh uXYY +−+−=−= 1100 ˆˆˆ ββββε ( ) ( ) ( )             − − ++= ∑= n i i h h XX XX n S 1 2 2 22 1 1ˆεσε Intervalo de previsão ( ) ( )[ ]hchhch StYStY εε 22 ˆ,ˆ +− Modelo de regressão linear simples Previsão de uma observação 2 Re ˆ − = n sSQ εσ
  • 37. Modelo de regressão linear simples Intervalo de previsão de uma observação Intervalo de previsão do valor esperado
  • 38. Exemplo A Comissão de Serviços Públicos é responsável pela regulação dos serviços públicos, ou seja, atua no sentido de induzir as empresas a serem eficientes e prestarem serviços de qualidade ao preço justo para a população. Em um determinado Estado atuam diferentes empresas de serviços públicos sob o regime de monopólio nas respectivas áreas de concessão. O trabalho do auditor consiste em visitar estas empresas e auditar seus registros financeiros para detectar se algum tipo de abuso está ocorrendo. A maior dificuldade do auditor é avaliar se os custos apresentados pelas empresas são razoáveis, pois as empresas têm diferentes tamanhos O arquivo empresas.xls contêm registros do número de clientes e custos de manutenção de 12 empresas de serviço público. • Estime o modelo de regressão. • Qual o custo de manutenção esperado para uma empresa com 75.000 clientes ? • Suponha que uma empresa com 75.000 clientes reporte uma despesa com manutenção de 1.500.000. Com base nos resultados da regressão linear, o auditor deve ver este número como razoável ou excessivo ?
  • 39. Exemplo clientes (1000) despesas com manutenção (1000 US$) 25.3 484.6 36.4 672.3 37.9 839.4 45.9 694.9 53.4 836.4 66.8 681.9 78.4 1037 82.6 1095.6 93.8 1563.1 97.5 1377.9 105.7 1711.7 124.3 2138.6 XY 02,1532,33ˆ += Y = Despesa com manutenção X = Nº de clientes
  • 40. Qual o custo de manutenção esperado para uma empresa com 75.000 clientes ? X = 75 → Exemplo 82,11597502,1532,33ˆ =⋅+=Y Y = Despesa com manutenção X = Nº de clientes 75 1159,82 → US$ 1.159.820,00
  • 41. Suponha que uma empresa com 75.000 clientes reporte uma despesa com manutenção de 1.500.000. Com base nos resultados da regressão linear, o auditor deve ver este número como razoável ou excessivo ? Podemos responder esta pergunta por meio de um intervalo de previsão para uma observação. Exemplo ( ) ( )[ ]hchhch StYStY εε 22 ˆ,ˆ +− ( ) ( ) ( )             − − ++= ∑= n i i h h XX XX n S 1 2 2 22 1 1ˆεσεonde Obtido na Anova Quadrado médio do resíduo 35236 Nº de observações = 12 t crítico com N-2 graus de liberdade ao nível de significância αααα. No Excel =INVT(0.05;10) = 2,2281 Valor estimado pelo modelo de regressão para variável dependente (Yh = 1159,2) quando Xh = 75. Média da variável dependente 70,67
  • 42. O intervalo de confiança cobre o ponto (75, 1500), logo o valor do custo não é excessivo. Exemplo X = 75 (1000 clientes) Y = 1500 (1000 US$)
  • 43. Exemplo modelo de regressão linear simples no Excel 1) Matriz de dados para regressão linear simples 1 variável dependente 1 variável independente 2) No menu Ferramentas escolha a opção Análise de dados 3) Na caixa de diálogo escolha a opção Regressão e clique em Ok 4) Informe os dados para regressão na caixa de diálogo
  • 44. Exemplo modelo de regressão linear simples no Excel Caixa de diálogo regressão Intervalo com os valores da variável dependente Intervalo com os valores da variável independente Rótulos: nomes das variáveis Marque se tem rótulo Grava resultados da regressão em uma nova planilha Apresenta a série de resíduos YY ˆ− Gráfico com os valores observados e previstos Gráfico dos resíduos contra a variável explicativa Gráfico para avaliar se a hipótese de normalidade do erro é satisfeita
  • 45. Exemplo modelo de regressão linear simples no Excel Planilha de Resultados R2 2 R Valor P P(F>24,3492) = 0,0011 Valor P < 5% rejeito H0 no teste F α β Valor P P( |t| >2,1495) = 0,0638 Valor P P( |t| >4,9345) = 0,0011 Intervalo de confiança 4,9345- 4,9345 Valor P < 5% rejeito H0 no teste F Yˆ YY ˆ− Valores para a plotagem de probabilidade normal
  • 46. Exemplo modelo de regressão linear simples no Excel Gráficos na planilha de Resultados X Plotagem de resíduos -20 0 20 0 10 20 30 40 50 X Resíduos X Plotagem de ajuste de linha 0 10 20 30 40 50 60 0 10 20 30 40 50 X Y Y Previsto(a) Y Plotagem de probabilidade normal 0 10 20 30 40 50 60 0 20 40 60 80 100 Percentil da amostra Y Útil na verificação da hipótese de variância constante do erro Útil na verificação da hipótese de normalidade do erro (valores ao redor de uma reta imaginária indicam que a hipótese de normalidade não foi violada) Valores observados contra valores estimados Útil na avaliação da qualidade do ajuste
  • 47. Regressões que se tornam lineares por anamorfose i X i i Y εββ 10=(exponencial) iii XY εβ β1 0=(potência) i i i X Y εββ ++= 1 10(hipérbole) iiii XXY εβββ +++= 2 110 (polinomial) As especificações a seguir são não-lineares, mas podem se tornar lineares por anamorfose, ou seja, mediante alguma transformação das variáveis. iii XY εββ lnlnlnln 10 +⋅+= iii vXY +⋅+= * 1 * 0 * ββ ii YY ln* = 0 * 0 ln ββ = 1 * 1 lnββ = iiv εln= iii XY εββ lnlnlnln 10 ++= iii vXY +⋅+= * 1 * 0 * ββ ii YY ln* = 0 * 0 ln ββ = iiv εln= ii XX ln* = iii XY εββ ++= * 10 i i X X 1* = iiii XXY εβββ +++= 21110 ii XX =1 2 2 ii XX = Modelo linear Modelo linear Modelo linear Modelo regressão linear múltipla A substituição de variáveis é válida, pois a relação entre X1 e X2 é não linear
  • 48. Modelo de regressão linear múltipla
  • 49. A variável dependente é uma função linear de K variáveis independentes (K≥≥≥≥2) iKikiii XXXY εββββ +++++= K22110 Notação matricial i=1,n εβ += XY             = nY Y Y Y M 2 1             = knn k k XX XX XX X 1 212 111 1 1 1 M L β β β β =             0 1 M k             = nε ε ε ε M 2 1 Modelo de regressão linear múltipla ββββ1, ββββ2, ββββ3,..., ββββk, σσσσ2 são parâmetros do modelo que devem ser estimados [ ] i k Kiii XXY ε β β β +             ⋅= M L 1 0 ,1,1 i=1,n Na regressão linear simples (K=1), um caso particular da regressão linear múltipla
  • 50. Hipóteses assumidas pelo modelo de regressão linear múltipla H1) A relação entre as variáveis é linear yi = β0 + β1xi1 + β2x2i +...+ βkxki + εi i=1,n. H2) A variável explicativa X é fixa, ou seja, não é aleatória. H3) As colunas da matriz X são linearmente independentes, ou seja, não há uma relação linear perfeita entre duas ou mais as variáveis explicativas. H4) Erros tem média nula: E(εi) = 0 para todo i=1,n. H5) Variância do erro é constante (homocedasticidade): V(εi) = σ2 para todo i=1,n. H6) Erros não correlacionados: Cov(εi,εk) = 0 para todo i≠k. H7) Erros tem distribuição Normal: εi ~ N(0,σ2) para todo i=1,n. H2,H3,H4 e H5 ⇒⇒⇒⇒ εεεεi são independentes e identicamente distribuídos N(0,σσσσ2) Basicamente, são as mesmas hipóteses assumidas na regressão linear simples
  • 51. ( ) YXXX TT 1 ˆ − =β                         = ∑∑∑∑ ∑∑∑∑ ∑∑∑∑ ∑∑∑ ==== ==== ==== === n i Ki n i Kii n i Kii n i Ki n i kii n i i n i ii n i i n i kii n i ii n i i n i i n i Ki n i i n i i T XXXXXX XXXXXX XXXXXX XXXn XX 1 2 1 2 1 1 1 1 2 1 2 2 1 21 1 2 1 1 1 21 1 2 1 1 1 11 2 1 1 OM L Estimador de Mínimos Quadrados Ordinários (MQO) Modelo de regressão linear múltipla                         = ∑ ∑ ∑ ∑ = = = = n i iKi n i ii n i ii n i i T yx yx yx y YX 1 1 2 1 1 1 M Equação de projeção [ ]               ⋅=+++== k KKk XXXXXyEy β β β βββ ˆ ˆ ˆ 1ˆˆˆ)|(ˆˆ 1 0 1110 M LK
  • 52. ( ) ( ) 12ˆ − =Σ XX T σβ kn SQE − =2 ˆσ Estimador de mínimos quadrados Propriedades do estimador de mínimos quadrados ( ) ββ =ˆE ( )( )12 1 ,~ˆ − + XXN T K σββ Se as hipóteses H1 até H6 forem satisfeitas, o estimador de mínimos quadrados é o melhor estimador linear não tendencioso (Teorema de Gauss Markov) Estimador não tendencioso Matriz de covariância dos estimadores O vetor de estimadores tem distribuição normal multivariada ( )jjjj aN 2 ,~ˆ σββ Cada tem distribuição normal ajj elemento da diagonal principal da inversa de X’X jβˆ
  • 53. Exemplo modelo de regressão linear múltipla (KUTNER et al, 2004) X1 X2 Y 68,5 16,7 174,4 45,2 16,8 164,4 91,3 18,2 244,2 47,8 16,3 154,6 46,9 17,3 181,6 66,1 18,2 207,5 49,5 15,9 152,8 52 17,2 163,2 48,9 16,6 145,4 38,4 16 137,2 87,9 18,3 241,9 72,8 17,1 191,1 88,4 17,4 232 42,9 15,8 145,3 52,5 17,8 161,1 85,7 18,4 209,7 41,3 16,5 146,4 51,7 16,3 144 89,6 18,1 232,6 82,7 19,1 224,1 52,3 16 166,5 Uma empresa de artigos infantis opera em 21 cidades de médio porte. A empresa está analisando a possibilidade de expansão em outras cidades de médio porte e para isso deseja investigar se a vendas (Y) em uma localidade podem ser preditas com base no número de pessoas com até 16 anos de idades (X1) e a renda per capita na localidade (X2). Valores expressos em milhares. Atualmente a empresa está presente em 21 localidades (N = 21), cujos dados são apresentados na tabela abaixo: εβββ +++= 22110 XXY Modelo de regressão linear múltipla a ser estimado 0 50 100 150 200 250 300 30 40 50 60 70 80 90 100 X1 Y 0 50 100 150 200 250 300 15 16 17 18 19 20 X2 Y
  • 54. Exemplo modelo de regressão linear múltipla ( ) 2211021, XXXXYE i βββ ++=A equação de regressão Os dados das 21 localidades podem ser dispostos em um gráfico, onde cada localidade é representada por um ponto. define um plano passando pelo meio da nuvem de pontos. Este plano representa o valor esperado das vendas em função da renda e da população abaixo de 16 anos em uma localidade populaçãorenda vendas
  • 55. Exemplo modelo de regressão linear múltipla Modelo de regressão linear Estimação dos coeficientes de regressão por mínimos quadrados iiii XXY εβββ +++= ,22,10 1 68,5 16,7 1 45,2 16,8 1 91,3 18,2 1 47,8 16,3 1 46,9 17,3 1 66,1 18,2 1 49,5 15,9 1 52 17,2 1 48,9 16,6 1 38,4 16 1 87,9 18,3 1 72,8 17,1 1 88,4 17,4 1 42,9 15,8 1 52,5 17,8 1 85,7 18,4 1 41,3 16,5 1 51,7 16,3 1 89,6 18,1 1 82,7 19,1 1 52,3 16 X = 174,4 164,4 244,2 154,6 181,6 207,5 152,8 163,2 145,4 137,2 241,9 191,1 232 145,3 161,1 209,7 146,4 144 232,6 224,1 166,5 Y = 21,00 1.302,40 360,00 1.302,40 87.707,94 22.609,19 360,00 22.609,19 6.190,26 =XX T 3.820,00 249.643,35 66.072,75 =YX T 29,7289 0,0722 -1,9926 0,0722 0,0004 -0,0055 -1,9926 -0,0055 0,1363 ( ) = −1 XX T ( ) YXXX TT 1 ˆ − =β          − =           3655,9 4546,1 8571,68 ˆ ˆ ˆ 2 1 0 β β β Dados ε+++−= 21 37,945,186,68 XXY Equação estimada
  • 56. Exemplo modelo de regressão linear múltipla Gráficos dos resíduos contra cada variável explicativa e a variável explica exibe um padrão aleatório e a dispersão parece constante e, portanto, estão coerentes com as hipóteses (pressupostos) de covariâncias nulas entre os erros e variância do erro constante.
  • 57. Exemplo modelo de regressão linear múltipla O gráfico de probabilidade normal índica que a distribuição dos resíduos é normal, portanto, coerente com a hipótese (pressuposto) de distribuição normal para o erro.
  • 58. Análise da variância - ANOVA ( ) ( )∑ ∑ = = − − == n i i n i ii YY YY SQT SQR R 1 2 1 2 2 ˆ ( ) kn n RR − − −−= 1 11 22 ( )[ ]1+− == knSQE kSQR QME QMR F Modelo de regressão linear múltipla Inferência Estatística no Modelo de Regressão Linear Fonte de variação Graus de liberdade Soma dos quadrados Quadrados médios Regressão K nyYXSQR n i i TT 2 1 ˆ       −= ∑ = β KSQRQMR /= Resíduos n - (K+1) YXYYSQE TTT βˆ−= ( )[ ]1/ −−= KnSQEQME Total n -1 nyYYSQT n i i T 2 1       −= ∑ =
  • 59. Exemplo modelo de regressão linear múltipla Construção da ANOVA para o exemplo da cadeia de lojas de roupas juvenis iii XXY 21 3655,94546,18571,68ˆ ++−= SQE SQR SQT
  • 60. Exemplo modelo de regressão linear múltipla Construção da ANOVA para o exemplo da cadeia de lojas de roupas juvenis Fonte de variação Soma dos quadrados (A) Graus de liberdade (B) Quadrado médio (C=A/B) F Regressão SQR 24015,28 2 12007,64 12007,64 / 121.1626 = 99,1035 Resíduo SQE 2180,93 N-3=18 121,1626 Total SQT 26196,21 N-1=20 ANOVA 2 variáveis explicativas 3 coeficientes estimados Por isso N – 3 O quadrado médio dos resíduos é uma estimativa da variância do erro 2 ˆεσ Coeficiente de determinação R2 917,0 21,26196 28.240152 === SQT SQR R
  • 61. Teste t H0 : ββββ j = 0 H1 : ββββ j ≠≠≠≠ 0 ( )1~ ˆ +−= kn j t b t jβσ ( )[ ]1+− = knSQE kSQR F H0 : ββββ 1 = ββββ 2 = ββββ 3 =...= ββββ k =0 H1 : pelo menos um ββββj ≠≠≠≠ 0 Teste F t t rejeita Htabelado≥ ⇒ 0 F F rejeita Htabelado≥ ⇒ 0 Modelo de regressão linear múltipla Inferência Estatística
  • 62. Exemplo modelo de regressão linear múltipla Modelo de regressão linear Estimativas dos erros padrão dos coeficientes de regressão ( )12 2 ˆˆˆˆˆ ˆˆ 2 ˆˆˆ ˆˆˆˆ 2 ˆ ˆ ˆˆˆ ˆˆˆ ˆˆˆ 22120 21110 20100 − ⋅=             = XXS T ε βββββ βββββ βββββ β σ σσσ σσσ σσσ 0170,600347,3602ˆˆ 2 ˆˆ 00 === ββ σσErros padrão dos estimadores dos coeficientes de regressão (valores informados pelo ajuste de regressão no Excel) Resultado na ANOVA = 121,1626 29,7289 0,0722 -1,9926 0,0722 0,0004 -0,0055 -1,9926 -0,0055 0,1363 =βS 3.602,0347 8,7459 -241,4230 8,7459 0,0449 -0,6724 -241,4230 -0,6724 16,5158 2118,00449,0ˆˆ 2 ˆˆ 11 === ββ σσ 0640,45158,16ˆˆ 2 ˆˆ 22 === ββ σσ Variâncias na diagonal principal Covariâncias fora da diagonal principal iiii XbbXbY ε+++= ,22,10
  • 63. Exemplo modelo de regressão linear múltipla Inferência do modelo H0 : b1 = b2 = 0 ( não há regressão de Y em X1 e X2) H1 : b1 ≠≠≠≠ 0 ou b2 ≠≠≠≠ 0 ( presença do efeito ) ( )1+− = Kn SQE K SQR F Fcalculado > Fcrítico logo rejeita H0 1) Estatística teste 4) F crítico ao nível de significância de 5% = 3,5546 =FINV(0,05;2;18) no Excel Distribuição F Teste F: Testa o efeito conjunto das variáveis explicativas sobre a variável dependente. ( ) 1035,99 1221 1626,121 2 64,007.12 = +− =F 2) Distribuição da estatística testes sob H0 ( ) ( )1,~ 1 +− +− KnKF Kn SQE K SQR 3) Valor da estatística teste na amostra observada (Fcalculado) 5) Conclusão
  • 64. Exemplo modelo de regressão linear múltipla tcalculado > tcrítico logo rejeita H0 Distribuição t Teste t: Testa a significância do coeficiente de regressão linear associado com uma determinada variável explicativa. H0 : b1 = 0 ( ausência do efeito ) H1 : b1 ≠≠≠≠ 0 ( presença do efeito ) 3 ˆ 1 ~ ˆ ˆ 1 −Nt b β σ 8682,6 2118,0 4546,1 ==t 4) t crítico ao nível de significância de 5% = 2,1 =TINV(0,05;18) no Excel 1 ˆ 1 ˆ ˆ β σ b t = 1) Estatística teste 2) Distribuição da estatística testes sob H0 3) Valor da estatística teste na amostra observada (tcalculado) 5) Conclusão Inferência do modelo
  • 65. Exemplo modelo de regressão linear múltipla Distribuição t Teste t: Testa a significância do coeficiente de regressão linear associado com uma determinada variável explicativa. H0 : b2 = 0 ( ausência do efeito ) H1 : b2 ≠≠≠≠ 0 ( presença do efeito ) 3045,2 0640,4 3655,9 ==t 3 ˆ 2 ~ ˆ ˆ 2 −Nt b β σ2 ˆ 2 ˆ ˆ β σ b t = 1) Estatística teste 2) Distribuição da estatística testes sob H0 3) Valor da estatística teste na amostra observada (tcalculado) 4) t crítico ao nível de significância de 5% = 2,1 =TINV(0,05;18) no Excel 5) Conclusão tcalculado > tcrítico logo rejeita H0 Inferência do modelo
  • 66. Exemplo modelo de regressão linear múltipla Intervalos 95% de confiança para os coeficientes da equação de regressão ( )( ) ( )( )%5,2 ˆ ˆ %5,2 11 +−+− ≤ − ≤− Kn b ii Kn t bb t i σ 95% 2339,57948,1941,2 0170,60 8571,68 1,2 0 0 ≤≤−⇒≤ −− ≤− b b 8995,10096,11,2 2118,0 4546,1 1,2 1 1 ≤≤⇒≤ − ≤− b b 9036,178274,01,2 0640,4 3655,9 1,2 2 2 ≤≤⇒≤ − ≤− b b Distribuição t K = número de variáveis independentes n = tamanho da amostra
  • 67. R2 ajustado ( )22 1 1 1 R kn n Rajustado − − − −= Problema com a estatística R2 : sempre aumenta a medida que novas variáveis são incluídas no modelo de regressão linear múltipla, independentemente da variável adicionada. No entanto cada variável adicionada ao modelo tem um custo, pois mais um coeficiente deve ser estimado. Então é interessante ter uma medida que permita avaliar o benefício para melhoria do modelo com a adição de uma nova variável explicativa em relação ao custo de estimar mais um coeficiente. Esta medida é o R2 ajustado Onde n é o tamanho da amostra K é o número de parâmetros da equação de regressão. O R2 ajustado é útil quando desejamos comparar dois modelos diferentes ou comparar um mesmo modelo com tamanhos de amostras diferentes
  • 68. [ ]khhh T h XXXx L211= Previsão Dado ( ) khkhh XXXYE βββ ˆˆˆ|ˆ 110 +++= K h T hprevisão xSxs βˆ 2 = khkhh XXY βββ ˆˆˆˆ 110 +++= K 2 ˆ 2 ˆσβ += h T hprevisão xSxs Modelo de regressão linear múltipla Previsão do valor esperado da variável dependente dado Y Previsão do valor da variável dependente dado Y Quadrado médio dos resíduos Valor obtido na ANOVA Erro padrão das previsões
  • 69. Exemplo Calcule a previsão das vendas esperadas nas cidades A e B: Cidade A número de pessoas com até 16 anos de idades (X1) : 65,4 renda per capita na localidade (X2) : 17,6 Cidade B número de pessoas com até 16 anos de idades (X1) : 53,1 renda per capita na localidade (X2) : 17,7 10,1916,1737,94,6545,186,68 =⋅+⋅+−= 15,1747,1737,91,5345,186,68 =⋅+⋅+−= [ ]6,174,651=T hx [ ]7,171,531=T hx Previsão da venda esperada na cidade A E(Y|X) Previsão da venda esperada na cidade B E(Y|X)
  • 70. Exemplo Intervalos de confiança para as vendas esperadas nas cidades A e B: Cidade A número de pessoas com até 16 anos de idades (X1) : 65,4 renda per capita na localidade (X2) : 17,6 Cidade B número de pessoas com até 16 anos de idades (X1) : 53,1 renda per capita na localidade (X2) : 17,7 1626,121ˆ 2 =εσ [ ]6,174,651=T hx [ ]7,171,531=T hx =βS 3.602,0347 8,7459 -241,4230 8,7459 0,0449 -0,6724 -241,4230 -0,6724 16,5158 Resultado da ANOVA slide 52 Matriz de covariâncias dos estimadores slide 54 Erro padrão das estimativas slide 60 h T hprevisão xSxs βˆ 2 ´ = Cidade A = 11,35 Cidade B = 11,93
  • 71. Exemplo Intervalos de confiança para as vendas esperadas nas cidades A e B: E(Y|X) é a média das vendas dado X ( ) 2 )1( 2 )1( 2 | 2 previsãokNprevisãokN stprevisãoXYEstprevisão       +≤≤      − +−+− αα Valor crítico da t com N-(k+1) graus de liberdade ao nível de confiança 1-alfa, podem ser obtidos no Excel, por exemplo, para 95% de confiança =INVT(0,05;18), cujo valor é aproximadamente 2,101 ( ) 9,214|3,167 ≤≤ XYE ( ) 2,199|1,149 ≤≤ XYE Cidade A Cidade B Note que os intervalos de confiança tem grande amplitude apesar do elevado R2 (0,92), portanto, valores elevados de R2 não garantem necessariamente previsões precisas
  • 72. Exemplo modelo de regressão linear múltipla no Excel 1) Matriz de dados para regressão linear múltipla 1 variável dependente 2 variável independentes 2) No menu Ferramentas escolha a opção Análise de dados 3) Na caixa de diálogo escolha a opção Regressão e clique em Ok 4) Informe os dados para regressão na caixa de diálogo
  • 73. Exemplo modelo de regressão linear múltipla no Excel Caixa de diálogo regressão Intervalo com os valores da variável dependente Intervalo com os valores da variável independente Rótulos: nomes das variáveis Marque se tem rótulo Grava resultados da regressão em uma nova planilha Apresenta a série de resíduos YY ˆ− Gráfico com os valores observados e previstos Gráfico dos resíduos contra a variável explicativa Gráfico para avaliar se a hipótese de normalidade do erro é satisfeita
  • 74. Exemplo modelo de regressão linear múltipla no Excel 0 ˆβ 1 ˆβ 2 ˆβ
  • 75. Exemplo modelo de regressão linear múltipla no Excel Gráficos na planilha de Resultados X1 Plotagem de resíduos -30,00 -20,00 -10,00 0,00 10,00 20,00 30,00 0 20 40 60 80 100 X1 Resíduos X2 Plotagem de resíduos -40,00 -20,00 0,00 20,00 40,00 0 5 10 15 20 25 X2 Resíduos X1 Plotagem de ajuste de linha 0 50 100 150 200 250 300 0 50 100 X1 Y Y Previsto(a) Y X2 Plotagem de ajuste de linha 0 100 200 300 0 10 20 30 X2 Y Y Previsto(a) Y
  • 76. Exemplo modelo de regressão linear múltipla no Excel Gráficos na planilha de Resultados Plotagem de probabilidade normal 0 100 200 300 0 50 100 150 Percentil da amostra Y
  • 77. Problemas que podem acontecer em um modelo de regressão linear Multicolinearidade: Quando há relações lineares exatas ou aproximadamente lineares entre as variáveis explicativas, a redundância entre as varáveis pode resultar em estimativas com valores elevados para o erro padrão ou impossibilitar a estimação dos coeficientes de regressão no caso de relações lineares exatas. Heterocedasticidade: A variância do erro não é uma constante, (violação da hipótese de homocedasticidade). Não raro acontece quando a amostra de observações é um corte transversal de unidades com “tamanhos” heterogêneos. Na presença de heterocedasticidade o estimador MQO permanece não tendencioso, mas deixa de ser o melhor estimador. Nestas situações deve-se utilizar o métodos mínimos quadrados ponderados (MQP). Autocorrelação: Os erros são autocorrelacionados, violação da hipótese de covariância nula entre os erros. Problema frequente quando a amostra de dados é formada por séries temporais. Na presença de autocorrelação serial dos erros o estimador MQO permanece não tendencioso, mas deixa de ser o melhor estimador. Nestas situações deve-se utilizar o métodos mínimos quadrados generalizados (MQG).
  • 78. Multicolinearidade Ocorre quando qualquer variável independente é altamente correlacionada com um conjunto de outras variáveis independentes. No caso extremo, uma variável independente guarda uma relação linear com outra variável independente. Neste caso não é possível obter as estimativas de mínimos quadrados. Consequências da multcolinearidade: • Estimativas mais imprecisas • Erros-padrão maiores • Dificuldade da separação dos efeitos de cada variável Soluções para contornar a multicolineardade. • Coletar mais dados • Eliminar variáveis • Usar componentes principais para reduzir a dimensão dos dados
  • 79. Avaliação da Multicolinearidade 1) Coeficientes de correlação simples entre as variáveis independentes 2) Tolerância: quantia de variabilidade da variável dependente não explicada pelas outras variáveis independentes. Valores altos significam um pequeno grau de multicolinearidade. Tolerância= 1–Rk 2, se menor que 0,1 indica multicolinearidade Onde Rk 2 é o coeficiente de determinação da variável independente k nas demais variáveis independentes. 3) Fator de inflação da variância (VIF): é o inverso da tolerância. Valores altos significam maiores níveis de multicolinearidade. VIF = 1 / Tolerância, se maior do que 10 já indica multicolinearidade
  • 80. Referências Bibliográficas Hanke, J.E.; Wichern, D.W. Pronósticos en los negocios, Naucalpan de Juárez: Pearson Education de México, 2006. Kutner, M.H.; Nachtsheim, C.J.; Neter, J. Applied linear regression models, New York: McGraw-Hill Irwin, 2004.