Regressão Linear
análise dos pressupostos
2
Checando as premissas por
Testes dos Pressupostos
Testes básicos para validação do modelo de
regressão simples
 Normalidade dos resíduos
 Homocedasticidade
 Ausência de autocorrelação dos resíduos
 Linearidade dos parâmetros
3
Normalidade dos resíduos
Os resíduos devem apresentar distribuição normal
 Identificação da Normalidade:
 Compara-se a distribuição dos resíduos com a
curva normal
 Testes:
 Kolmogorov-Smirnov (não paramétrico)
 Jarque-Bera (paramétrico assintótico)
4
Normalidade dos resíduos
Teste Kolmogorov-Smirnov
H0: distribuição normal
H1: distribuição não é normal
Testa a proximidade ou a diferença entre freqüência observada e esperada.
Geralmente, K-S menor que 0,3 indica que a distribuição está apropriada.
Estatística K-S usa a distribuição D.
D ≤ Dcrítico aceita a Hipótese Nula
max. i
i
D z
n
 
5
Normalidade dos resíduos
Teste de Jarque-Bera
H0: distribuição normal
H1: distribuição não é normal
JB ≤ JBcrítico aceita a Hipótese Nula
Estatística JB qui-quadrado (‫א‬2) (com 2 gl)
JB = n . [ A2/6 + (C-3)2/24]
onde:
A = assimetria
C = curtose
6
Normalidade dos resíduos
Se a distribuição não for normal?
Estimativas não serão eficientes; maior erro padrão
Possíveis causas:
•Omissão de variáveis explicativas importantes
•Formulação matemática incorreta (forma funcional)
Solução:
•Incluir novas variáveis
•Formular corretamente a relação funcional
7
Homocedasticidade
8
Homocedasticidade
Os resíduos devem apresentar a mesma variância para
cada observação de X
Avalia-se o conteúdo informacional dos resíduos
Identificação da homocedasticidade
 Analisa-se a evolução da dispersão dos resíduos
em torno da sua média, à medida que X aumenta
 Examina-se a distribuição dos resíduos para cada
observação de X
 Testes: Pesarán-Pesarán; BPG; RESET de Ramsey;
White; etc.
9
Homocedasticidade
Teste de Pesarán-Pesarán:
m2 = f (Yc
2)
 Regride-se o quadrado dos resíduos (m2) como
função do quadrado dos valores estimados (Yc
2)
 Avalia-se o coeficiente de Yc
2
 H0: resíduos homocedásticos
 H1: resíduos heterocedásticos
10
Homocedasticidade
Se a distribuição não for homocedástica?
Estimativas não serão eficientes; maior erro padrão
Possíveis causas:
• Diferenças entre os dados da amostra
a. modelo da aprendizagem
b. discricionariedade no uso da renda
c. diferenças em dados em corte (cross-section)
d. erro de especificação
11
Homocedasticidade
Solução:
 Mudar a forma funcional através de transformações
das variáveis
 Estimar a regressão via mínimos quadrados
ponderados
12
Ausência de autocorrelação
O modelo pressupõe que:
 correlação entre os resíduos é zero
 o efeito de uma observação é nulo sobre a outra
 não há causalidade entre os resíduos e a
variável X, e, por conseqüência, a variável Y
Identificação da autocorrelação
Analisa-se a dispersão dos resíduos em torno da sua
média
 Teste de Durbin-Watson
13
Ausência de autocorrelação
•Teste de Durbin-Watson
•H0: Não existe correlação serial dos resíduos
•H1: Existe correlação serial dos resíduos
•Estatística DW = S(mx - mx-1)2 / S mx
2
14
Ausência de autocorrelação
•Análise da Estatística DW
0 dL dU 4-dU 4-dL 4
Autocorrelação
positiva
Autocorrelação
negativa
Ausência de
Autocorrelação
Região não
conclusiva
Região não
conclusiva
15
Ausência de autocorrelação
Se os resíduos forem correlacionados?
•Estimativas não eficientes; maior erro padrão
Possíveis causas:
•Em séries temporais
•inércia
•viés de especificação
•falta de variáveis
•forma funcional incorreta
•defasagem nos efeitos das váriáveis
•manuseio dos dados (interpolação / extrapolação)
16
Ausência de autocorrelação
Solução:
 Formular corretamente a relação funcional
 Tornar a série estacionária
17
Regressão Linear Múltipla
Extensão do modelo de regressão linear
Valem as hipóteses de
Distribuição Normal dos Resíduos
Homocedasticidade
Ausência de autocorrelação
Linearidade nos parâmetros
Adicionalmente
Ausência de multicolinearidade
18
Multicolinearidade
 Ocorre com duas ou mais variáveis
independentes do modelo explicando o
mesmo fenômeno
 Variáveis contêm informações similares
• Exemplo
 Explicar preço de uma casa com
regressão que tenha como variáveis
explicativas a área da casa e o
número de cômodos
19
Multicolinearidade
o Duas ou mais variáveis independentes
altamente correlacionadas
o Dificuldade na separação dos efeitos de
cada uma das variáveis
o A multicolinearidade tende a distorcer os
coeficientes (b) estimados
20
Multicolinearidade
Conseqüências
Erros padrão maiores
Menor eficiência
Estimativas mais imprecisas
Estimadores sensíveis a pequenas
variações dos dados
Dificuldade na separação dos efeitos de
cada uma das variáveis
21
Multicolinearidade
Identificação através dos Testes seguintes
FARRAR & GLAUBER
VIF (VARIANCE INFLATION FACTOR)
TOLERANCE
22
Multicolinearidade
Identificação Teste de Farrar & Glauber
c2 crítico com g.l. = k . (k-1) / 2
1 r12 ........r1k
c2 = -[n - 1 - 1/6 . (2.k+5)] . Ln(det r21 1 ........r2k )
rk1 rk2 ........ 1
onde: n = número de observações
k = número de variáveis
Ln = logaritmo neperiano
det = determinante
rij = coeficiente de correlação parcial
23
Multicolinearidade
Teste de aceitação Teste de Farrar & Glauber
H0: Ausência de Multicolinearidade
H1: Existe Multicolinearidade
c2 teste > c2 crítico → Rejeita a hipótese nula de ausência de
multicolinearidade (Há correlação entre as
variáveis)
24
Multicolinearidade
Identificação VIF
VIFk = 1 / ( 1 - rk
2)
Regra de bolso para o VIF
até 1 - sem multicolinearidade
de 1 até 10 - multicolinearidade aceitável
acima de 10 - multicolinearidade problemática
onde: rk = coeficiente de correlação da variável K com as demais variáveis
25
Multicolinearidade
Identificação
Tolerancek = ( 1 - rk
2)
Regra de bolso para o índice Tolerance
até 1 - sem multicolinearidade
de 1 até 0,10 - multicolinearidade aceitável
abaixo de 0,10 - multicolinearidade problemática
onde: rk = coeficiente de correlação da variável K com as demais variáveis

regressão linear- multicolinearidade.ppt

  • 1.
  • 2.
    2 Checando as premissaspor Testes dos Pressupostos Testes básicos para validação do modelo de regressão simples  Normalidade dos resíduos  Homocedasticidade  Ausência de autocorrelação dos resíduos  Linearidade dos parâmetros
  • 3.
    3 Normalidade dos resíduos Osresíduos devem apresentar distribuição normal  Identificação da Normalidade:  Compara-se a distribuição dos resíduos com a curva normal  Testes:  Kolmogorov-Smirnov (não paramétrico)  Jarque-Bera (paramétrico assintótico)
  • 4.
    4 Normalidade dos resíduos TesteKolmogorov-Smirnov H0: distribuição normal H1: distribuição não é normal Testa a proximidade ou a diferença entre freqüência observada e esperada. Geralmente, K-S menor que 0,3 indica que a distribuição está apropriada. Estatística K-S usa a distribuição D. D ≤ Dcrítico aceita a Hipótese Nula max. i i D z n  
  • 5.
    5 Normalidade dos resíduos Testede Jarque-Bera H0: distribuição normal H1: distribuição não é normal JB ≤ JBcrítico aceita a Hipótese Nula Estatística JB qui-quadrado (‫א‬2) (com 2 gl) JB = n . [ A2/6 + (C-3)2/24] onde: A = assimetria C = curtose
  • 6.
    6 Normalidade dos resíduos Sea distribuição não for normal? Estimativas não serão eficientes; maior erro padrão Possíveis causas: •Omissão de variáveis explicativas importantes •Formulação matemática incorreta (forma funcional) Solução: •Incluir novas variáveis •Formular corretamente a relação funcional
  • 7.
  • 8.
    8 Homocedasticidade Os resíduos devemapresentar a mesma variância para cada observação de X Avalia-se o conteúdo informacional dos resíduos Identificação da homocedasticidade  Analisa-se a evolução da dispersão dos resíduos em torno da sua média, à medida que X aumenta  Examina-se a distribuição dos resíduos para cada observação de X  Testes: Pesarán-Pesarán; BPG; RESET de Ramsey; White; etc.
  • 9.
    9 Homocedasticidade Teste de Pesarán-Pesarán: m2= f (Yc 2)  Regride-se o quadrado dos resíduos (m2) como função do quadrado dos valores estimados (Yc 2)  Avalia-se o coeficiente de Yc 2  H0: resíduos homocedásticos  H1: resíduos heterocedásticos
  • 10.
    10 Homocedasticidade Se a distribuiçãonão for homocedástica? Estimativas não serão eficientes; maior erro padrão Possíveis causas: • Diferenças entre os dados da amostra a. modelo da aprendizagem b. discricionariedade no uso da renda c. diferenças em dados em corte (cross-section) d. erro de especificação
  • 11.
    11 Homocedasticidade Solução:  Mudar aforma funcional através de transformações das variáveis  Estimar a regressão via mínimos quadrados ponderados
  • 12.
    12 Ausência de autocorrelação Omodelo pressupõe que:  correlação entre os resíduos é zero  o efeito de uma observação é nulo sobre a outra  não há causalidade entre os resíduos e a variável X, e, por conseqüência, a variável Y Identificação da autocorrelação Analisa-se a dispersão dos resíduos em torno da sua média  Teste de Durbin-Watson
  • 13.
    13 Ausência de autocorrelação •Testede Durbin-Watson •H0: Não existe correlação serial dos resíduos •H1: Existe correlação serial dos resíduos •Estatística DW = S(mx - mx-1)2 / S mx 2
  • 14.
    14 Ausência de autocorrelação •Análiseda Estatística DW 0 dL dU 4-dU 4-dL 4 Autocorrelação positiva Autocorrelação negativa Ausência de Autocorrelação Região não conclusiva Região não conclusiva
  • 15.
    15 Ausência de autocorrelação Seos resíduos forem correlacionados? •Estimativas não eficientes; maior erro padrão Possíveis causas: •Em séries temporais •inércia •viés de especificação •falta de variáveis •forma funcional incorreta •defasagem nos efeitos das váriáveis •manuseio dos dados (interpolação / extrapolação)
  • 16.
    16 Ausência de autocorrelação Solução: Formular corretamente a relação funcional  Tornar a série estacionária
  • 17.
    17 Regressão Linear Múltipla Extensãodo modelo de regressão linear Valem as hipóteses de Distribuição Normal dos Resíduos Homocedasticidade Ausência de autocorrelação Linearidade nos parâmetros Adicionalmente Ausência de multicolinearidade
  • 18.
    18 Multicolinearidade  Ocorre comduas ou mais variáveis independentes do modelo explicando o mesmo fenômeno  Variáveis contêm informações similares • Exemplo  Explicar preço de uma casa com regressão que tenha como variáveis explicativas a área da casa e o número de cômodos
  • 19.
    19 Multicolinearidade o Duas oumais variáveis independentes altamente correlacionadas o Dificuldade na separação dos efeitos de cada uma das variáveis o A multicolinearidade tende a distorcer os coeficientes (b) estimados
  • 20.
    20 Multicolinearidade Conseqüências Erros padrão maiores Menoreficiência Estimativas mais imprecisas Estimadores sensíveis a pequenas variações dos dados Dificuldade na separação dos efeitos de cada uma das variáveis
  • 21.
    21 Multicolinearidade Identificação através dosTestes seguintes FARRAR & GLAUBER VIF (VARIANCE INFLATION FACTOR) TOLERANCE
  • 22.
    22 Multicolinearidade Identificação Teste deFarrar & Glauber c2 crítico com g.l. = k . (k-1) / 2 1 r12 ........r1k c2 = -[n - 1 - 1/6 . (2.k+5)] . Ln(det r21 1 ........r2k ) rk1 rk2 ........ 1 onde: n = número de observações k = número de variáveis Ln = logaritmo neperiano det = determinante rij = coeficiente de correlação parcial
  • 23.
    23 Multicolinearidade Teste de aceitaçãoTeste de Farrar & Glauber H0: Ausência de Multicolinearidade H1: Existe Multicolinearidade c2 teste > c2 crítico → Rejeita a hipótese nula de ausência de multicolinearidade (Há correlação entre as variáveis)
  • 24.
    24 Multicolinearidade Identificação VIF VIFk =1 / ( 1 - rk 2) Regra de bolso para o VIF até 1 - sem multicolinearidade de 1 até 10 - multicolinearidade aceitável acima de 10 - multicolinearidade problemática onde: rk = coeficiente de correlação da variável K com as demais variáveis
  • 25.
    25 Multicolinearidade Identificação Tolerancek = (1 - rk 2) Regra de bolso para o índice Tolerance até 1 - sem multicolinearidade de 1 até 0,10 - multicolinearidade aceitável abaixo de 0,10 - multicolinearidade problemática onde: rk = coeficiente de correlação da variável K com as demais variáveis