Linear regression model

Métodos Quantitativos para Finanças e Economia
Análise de Regressão
João F. Caldeira
www.ufrgs.br/ppge/caldeira/
Especializaç ão em Economia e Finanças, PPGE-UFRGS
Porto Alegre, 12 de setembro de 2017
Métodos Quantitativos para Finanças e EconomiaAnálise de Regressão – p. 1

Introduç ão
• Um modelo de regressão é um meio formal de expressar um ingrediente
fundamental de uma relação:
◦ uma tendência de uma variável resposta (dependente) Y variar de acordo
com a variação de um preditor X de uma maneira sistemática.
• Postularemos que existe uma distribuição de probabilidade de Y para cada nível
de X e que esta distribuição de probabilidade varia de uma maneira sistemática
conforme X varia.
• A análise de regressão foi primeiramente desenvolvida por Sir Francis Galton na
última parte do século XIX.
• Galton estudou a relação entre as alturas de pais e filhos e notou que as alturas
das crianças dos pais mais altos e mais baixos pareciam “reverter” ou “regredir”
para a média do grupo. Ele chamou esta tendência de “regressão à
mediocridade”.

Exemplos de Regress˜oes
• Regressão da Inﬂação (Y) sobre Desemprego (X): primeira versão da curva de
Phillips (em nível.
• Regressão do PIB sobre o Desemprego: Tipo a Lei de Okun (só que esta última é
usando a variação);
• Investimento sobre o PIB: chamam de efeito multiplicador, PIB sobre Investimento:
efeito acelerador;
• Investimento sobre Public Debt (Dívida Pública);
• Dívida Pública sobre Tax Burden (Carga Tributária);
• Investimento sobre Corporate Tax Rate (taxa de imposto corporativo);
• Public Debt sobre Investimento (para ver se o gasto do governo expulsa o
investimento - chamam de efeito crowding out).

Tipos de Dados
• Dados de corte (seção) transversal (coletados no mesmo intervalo de tempo).
◦ Exemplo: o salário de cada um de 100 indivíduos de um inventário.
◦ O mais comum é que os dados sejam quantitativos (salários são medidos em
reais, assim, os dados são números).
◦ Às vezes os dados são qualitativos, mas podem ser convertidos em dados
numéricos, referidas como variáveis dummy.
• Dados de série temporal.
◦ Comum em macroeconomia e ﬁnanças: GDP, preços de ações, taxas de
juros, taxa de câmbio, etc.
◦ Os dados são coletados em pontos especíﬁcos no tempo (diário, semanal,
mensal, ou todo ano).
• Dados em Painel: dados com componentes de cross-section e de séries
temporais.

Análise de Regressão
• Objetivo da modelagem: simplificar o mundo complexo a nossa volta e nos
concentrar na essência do problema.
• Um modelo não precisa conter todos os detalhes do mundo complexo para ser
útil. Podemos quebrar os problemas em pequenas partes para ajudar na
compreensão.
• Podemos tentar manter constantes algumas das variáveis envolvidas em nosso
estudo afim de nos concentrar nas demais. Entretanto, devemos estar atentos aos
problemas de variável omitida e causalidade reversa para minorar erros nas
nossas conclusões sobre causa e efeito.
• Exemplo (causalidade reversa): em cidades com mais policiais há um número
maior de crimes. Logo, o policiamento aumenta a violência urbana!? O número de
policiais determina a criminalidade ou a criminalidade determina o número de
policiais?

Análise de Regressão
• A análise de regressão tem pelo menos 200 anos.
• Ela é a técnica de modelagem preditiva mais utilizada por ser simples e efetiva.
• Há, no entanto, várias técnicas mais sofisticadas que surgiram desde então.
Ainda assim, o estudo das té cnicas que iremos ver neste curso servem como
fundação para aplicações mais sofisticadas.
• A técnica é utilizada amplamente nas mais diversas áreas. Exemplos: Marketing,
Economia, Psicologia, Bioinformática.
• Às vezes, é útil transformar ou recodificar os dados para obter um bom modelo.
Enfoques condicionais: logaritmo, inversa, potências, etc...

Modelo Clássico de Regressão Linear
• Vamos apresentar os conceitos básicos sobre estimação e testes de uma
regressão usando mínimos quadrados ordinários.
• Definimos um modelo de regressão linear simples como a relação entre Y e X
dada pela seguinte expressão:
Y = β0 + β1X + υ
onde:
◦ Y é a variável dependente, variável resposta, ou regressando;
◦ X é a variável independente, variável explicativa, ou regressor;
◦ β0 e β1 são os coeficientes da regressão, os quais são constantes;
◦ υ é o distúrbio estocástico ou termo de erro.

Modelo de Regressão Linear
• Modelo de Regressão Linear Populacional:
• Interpretação dos parâmetros:
◦ β0 (intercepto) é o valor da média da distribuiç ão de Y em X = 0, nem sempre tem
significado prático como um termo separado (isolado) no modelo;
◦ β1 (inclinaç ão) expressa a taxa de mudança em Y , isto é, a mudança em Y quando ocorre a
mudança de uma unidade em X.

• Modelo de Regressão Linear Amostral

Motivac¸ ˜ao
• Como estimar o impacto de uma variável sobre a outra, o efeito causal, com base
em uma amostra de dados aleatória?
• Conversa de bar: o governo deve aumentar o número de policiais nas ruas para
reduzir a criminalidade ...
• Conversa de corredor: se a nossa turma fosse menor, o desempenho da classe
seria melhor;
• Conversa com os pais: preciso fazer pós-graduação para que o meu salário
aumente.

Causalidade versus correlaç ão
• Pesquisadores frequentemente são tentados a inferir uma relação de causa e
efeito entre X e Y quando eles ajustam um modelo de regressão ou realizam
uma análise de correlação.
• Uma associação significativa entre X e Y em ambas as situações não
necessariamente implica numa relação de causa e efeito.
• Correlação: indica a força e a direção do relacionamento linear entre duas
variáveis aleatórias, embora correlação não implique causalidade.
• Regressão: é um método para se estimar a média condicional (valor esperado) de
uma variável Y , dados os valores de algumas outras variáveis X.

Construç ão de Modelos de Regressão
• Seleção das variáveis preditoras;
• Escolha do Modelo de Regressão;
• Abrangência do Modelo.
• Obs: O problema, em estudos observacionais, é escolher o conjunto de variáveis
que podem ou devem ser incluídas no modelo.
• Dificuldades Práticas:
◦ Nem todos os dados de interesse estão disponíveis;
◦ A base de dados pode não ser suficientemente ampla;
◦ Os resultados dificilmente podem ser generalizados;

Modelo Clássico de Regressão Linear
• 1◦ Passo: Compreender o modelo clássico de regressão linear (MCRL regressão
simples);
• 2◦ Passo: Limitações do modelo;
• 3◦ Passo: Extensão do modelo simples para o modelo de regressão múltipla;
• 4◦ Passo: Testes para a verificação dos pressupostos do MMQO.
• Análise de regressão é uma metodologia estatística que utiliza a relação entre
duas ou mais variáveis quantitativas (ou qualitativas) de tal forma que uma
variável pode ser predita a partir da outra ou outras;
• Estamos interessados na relação entre duas variáveis, as quais chamaremos de
X e Y. Observamos pares de valores X e Y em cada amostra ou unidade
experimental, e vamos usá-los para dizer alguma coisa sobre a relação.

• Considere o modelo com uma variável preditora, em que a função de regressão é
linear. O modelo é dado por:
Y = β0 + β1Xi + υi, i = 1, . . . , N.
onde:
◦ β0 (intercepto); quando a amostra inclui X = 0, β0 é o valor da média de Y
em X = 0, não tem signiﬁcado prático como um termo separado (isolado) no
modelo.
◦ β1 (inclinação): expressa a variação esperada na variável dependente,
quando a variável independente varia uma unidade. Ele indica a mudança na
média da distribuição de probabilidade de Y por unidade de acréscimo em X.

Modelo de Regress˜ao Linear: Exemplo
• Observe o modelo teórico para a estimação das quantidades demandadas:
Qd
= β0 − β1Pi
• Nos modelos teóricos, costuma-se atribuir de antemão valores para β0
(intercepto) e β1 (coeﬁciente angular).
• Por exemplo:
Qd
= 10 − 2Pi

Modelo de Regress˜ao Linear: Exemplo
• Com a equação em mãos, basta escolher valores para o preço (variável
independente) e descobrir qual será a quantidade demanda para cada nível de
preço;
• O problema é que, na prática, β0 e β1 são desconhecidos.
• Logo, para obter a quantidade demandada para cada nível de preço é preciso
estimar uma função de demanda, ou seja, obter estimativas de β0 e β1.

O Método dos M´ınimos Quadrados Ordinários (MQO)
• Uma vez que não é possível saber quais os verdadeiros valores dos β′s, não será
possível encontrar a reta de regressão populacional(!)
E(Yi/Xi) = β0 + β1Xi
• Como proceder?
• O objetivo, portanto, é encontrar a reta de regressão que mais se aproxima da reta
regressão populacional; ou seja, descobrir a reta que melhor se ajusta aos dados.
• Observe, portanto, que o desafio é descobrir quais os estimadores (os
betas-chapéu) que mais se aproximam dos verdadeiros valores dos parâmetros
populacionais.

• É possível escrever o modelo linear de regressão simples como:
Yi = β0 + β1Xi
ou
Yi = E (Yi/Xi) + υi
• Uma vez que E(yi/xi) = β0 + β1xi é uma reta e os β′s são desconhecidos, é
possível utilizar a função de regressão amostral e, em seguida, isolar os resíduos,
ou seja:
Yi = β0 + β1Xi + υi ou
υi = Yi − β0 + β1Xi ou ainda
υi = Yi − Yi

• Intuitivamente, o que se busca é a menor distância entre yi e yi, ou seja, a menor
diferença entre o valor estimado (previsto) e o valor observado. Em outros termos,
o menor valor para a soma dos resíduos.
• Para evitar que a soma dos resíduos seja igual a zero, utiliza-se a soma dos
quadrados dos resíduos.
• O método consiste em minimizar a função dada por:
min
β0,β1
N
i=1
ˆυ2
i = min
β0,β1
n
i=1
Yi − β0 − β1Xi
2
• Nesse caso, os valores betas-chapéu estimados serão os melhores estimadores
lineares, pois minimizam a distância entre o valor positivo e o valor esperado.

• Tomando as derivadas parciais com respeito aos parâmetros e resolvendo as
condições de primeira ordem:
ˆβ1 =
N
i=1
(xi − x) (yi − y)
N
i=1
(xi − x)
=
N
i=1
wi (yi − y)
ˆβ0 = y − ˆβ1x
onde:
wi =
(xi − x)
N
i=1
(xi − x)2
o que mostra que ˆβ1 é uma função linear de y. O mesmo argumento se aplica aos
estimadores de OLS de um modelo de regressão múltiplo.

Hipóteses do Modelo de Regressão Linear
• H1 (Linearidade dos parâmetros): O modelo de regressão linear populacional é
linear nos coeficientes da regressão:
Y = β0 + β1X1 + β2X2 + β3X3 + . . . + βkXk + υ.
• H2 (Amostragem aleatória): Podemos extrair uma amostra aleatória da
população:
{(x1i, . . . , xki, yi) , i = 1, . . . , n}
• H3 (Média Condicional Zero): Condicional aos regressores, o valor esperado do
termo de erro é zero:
E (υ|X1, X2, . . . , Xk) = 0
Esta é a hipótese mais importante do modelo de regressão populacional.

• H4 (Ausência de Colinearidade Perfeita): As variáveis explicativas 1, X1, . . . , XK
são linearmente independentes. Logo, Xj, j = 1, . . . , K, não podem ser
constantes. 






1 X11 X12 . . . XK1
1 X21 X22 . . . XK2
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
1 X1n X2n . . . XKn







n×(K+1)
Esta hipótese implica que o posto(X) = K + 1, pois n ≥ K + 1. (Não existe uma
relação linear exata entre os regressores. Com multicolinearidade perfeita, o
modelo não pode ser estimado por OLS. Um dos regressores precisa ser
removido).
• H5 (Homocedasticidade): Condicional aos regressores, a variância do termo de
erro é constante:
var (υ|X1, X2, . . . , Xk) = σ2
υ
ou, a variância condicional da variável dependente é constante.

• H6 (Ausência de Correlação Serial): Ausência de correlação serial signiﬁca que
os termos de erro não são correlacionados ao longo do tempo:
cov (υi, υj|X) = 0, ∀i, j, i = j.
Esta hipótese refere-se a um modelo de regressão para o qual os dados são
coletados ao longo do tempo.
• H7 (Variação Amostral nos Regressores): Todos os regressores devem ter
variâncias positivas, isto é, nenhum regressor pode ser constante para todas as
observações amostra:
var (Xj) > 0, j = 1, 2, . . . , k.

O Teorema de Gauss-Markov
• Sob (algumas) as hipóteses do modelo clássico de regresão linear, os
estimadores ˆβ0, ˆβ1, . . . , ˆβk são os best linear unbiased estimators (BLUE) dos
respectivos coeﬁcientes de regressão populacional (β0, β1, . . . , βk).
• Linear: O estimador ˆβ é uma função linear das variáveis dependentes. Vamos
trabalhar com ˆβ1:
ˆβ1 =
N
i=1
(xi − x) (yi − y)
N
i=1
(xi − x)
=
N
i=1
wi (yi − y)
onde:
wi =
(xi − x)
N
i=1
(xi − x)2
o que mostra que ˆβ1 é uma função linear de y. O mesmo argumento se aplica aos
estimadores de OLS de um modelo de regressão múltiplo.

• Unbiased: O valor esperado do estimador de OLS ˆβ é o correspondente
coeficiente da regressão populacional:
E ˆβj = βj, j = 1, 2, . . . , k.
mesmo na presença de heterocedasticidade e correlação serial, os estimadores
de OLS ainda são não-viesados.
• Significa que se pegarmos um número de amostras e estimarmos os parâmetros
populacionais com estas amostras, o valor médio das estimativas será igual ao
valor populacional quando o números de amostras tender a infinito.
E β0 = β0,
E β1 = β1.

• Best: Significa que que a variância do estimador de OLS ˆβ é a menor dentre
quaisquer outros estimadores lineares não-viesados:
var ˆβj ≤ var ˜βj , j = 1, 2, . . . , k.
esta propriedade é conhecida como propriedade da eficiência. Todas as
hipóteses enunciadas são necessárias para a validade desta propriedade.
• Eficiência dos estimadores não viesados: o estimador é eficiente e nenhum
outro estimador linear não viesado tem maior precisão (menor variância) . Requer
que a variância seja homocedástica e não autocorrelacionada ao longo do tempo.

Propriedade dos Estimadores de M´ınimos Quadrados
• Consistência: Significa que quando o tamanho da amostra cresce, tende a
infinito, a variância dos parâmetros deve convergir para zero e os parâmetros
convergem para os parâmetros populacionais.
◦ Um estimador pode ser viesado e ainda assim consistente, mas não é
possível um estimador ser não viesado e inconsistente.
• Parâmetros normalmente distribuídos: Uma vez que os parâmetros são
médias ponderadas das variáveis dependentes, eles podem ser tratados como
uma média.
◦ De acordo com o teorema do limite central, a média é normalmente
distribuída.
◦ Consequentemente, os estimadores de OLS são normalmente distribuídos
em amostras suficientemente grandes.

R-quadrado e R2
-ajustado
• Uma medida da qualidade de ajuste - quão bem o modelo ajustado explica a
variabilidade de Y - é fornecida pelo R-quadrado da regressão, o qual é conhecido
como coeficiente de determinaç ão.
• O coeficiente de determinação busca decompor o desvio em torno da média em
uma parte explicada e outra parte inexplicada:
Yi − Y = Yi − Y + Yi − ˆYi + Yi − Y
Explicado
+ Yi − ˆYi
Não-Explicado υi
• Assim, definimos a seguinte partição da soma de quadrados total.
• Soma dos Quadrados dos Total:
SST =
n
i=1
Yi − Y
2
que é a variação total amostral na variável dependente y com respeito à sua
média amostral.

R-quadrado e R-quadrado ajustado
• Soma dos Quadrados da Explicada:
SSE =
n
i=1
Yi − Y i
2
que é a variação total amostral nos valores ajustados y com respeito à sua média
amostral.
• Soma dos Quadrados dos Resíduos:
SSR =
n
i=1
Yi − Yi
2
=
n
i=1
υ2
i
que é a variação amostral nos resíduos υ com respeito à sua média amostral, a
qual é igual a zero.

R-quadrado e R-quadrado ajustado
• Isso prova que a variação total pode ser decomposta em variação explicada e
variação inexplicada:
SST = SSE + SSR
• Com base nesta relação, o R-quadrado é definido como a razão:
R2
=
SSE
SST
= 1 −
SSR
SST
a qual é a proporção da variação amostral da variável dependente explicada pelo
(s) regressor (es).
• Coeficiente de determinaç ão: é uma medida de aderência da regressão, que mede o
sucesso dentro da amostra do modelo de regressão:
0 ≤ R2
≤ 1.
É também interpretado como a proporção da variância da variável dependente
que é explicada pelas variáveis explanatórias.

O Coeficiente de determinaç ão ajustado - R
2
• Um problema com o R2 é que qualquer variável adicionada ao modelo, por menor
que seja o seu poder de explicação, gera um crescimento no R2 normal.
• Logo, o R2-ajustado busca penalizar a estatística pelo acréscimo de variáveis
irrelevantes.
• O R
2
tem a mesma interpretação que o R2. A diferença é que o R
2
é corrigido
pelo número de graus de liberdade:
R
2
= 1 −
SSR/(n − k − 1)
SST(n − 1)
= 1 − 1 − R2 n − k
n − k − 1
.
• Comparando ambos os R-quadrados, podemos ver que:
R
2
≤ R2
.

Exerc´ıcio: MCRL
• Utilizando o banco de dados mroz (contido no xlsx) faça uma regressão via
mínimos quadrados ordinários do log do salário (lwage) sobre uma constante,
edução (educ), experiência (exper) e experiência ao quadrado (expersq).
Interprete os resultados dos coefﬁcientes (Como eles foram calculados? E os
erros-padrão? E R2?)
lwage = β0 + β1educ + β2exper + β3exper
2
• Faça as questões da lista de exercícios.

Escolhendo a forma funcional: não-linearidades
• É possível incorporar algumas não-linearidades em um modelo de regressão
redefinindo os regressores e/ou a variável dependente. Suponha que façamos
W = X2, então Y = β0 + β1X + β2X2 pode ser escrito como
Y = β0 + β1X + β2W + υ.
O qual é uma função linear de W e pode ser estimado por OLS.
• Outras especificações não-lineares tais como a log − log, ou semilog também são
modelos considerados.
• Por exemplo, em:
log Y = β0 + β1 log X + υ.
qual é a resposta de Y a uma mudança marginal em X?

Por que usar o log natural?
• Taxa de Crescimento: A primeira-diferença do logaritmo de Y é
aproximadamente igual a taxa de crescimento de Y .
log yt − log yt−1
∼=
y1 − yt−1
yt−1
• Em termos percentuais,
%∆yt
∼= 100 ∗ ∆ log yt = 100 ∗ (log yt − log yt−1)

Por que usar o log natural?
• O logaritmo natural como expressão da elasticidade:
log(Yt) = α + β log(Xt)
log(Yt) = β∆ log(Xt)
∆ log(Yt)
∆ log(Xt)
= β
• Mas:
∆ log(Yt) = log(Yt) − log(Yt−1) = log
Yt
Yt−1
≈
Yt − Yt−1
Yt−1
• Então:
∆ log(Yt)
∆ log(Xt)
=
[(Yt − Yt−1)/Yt−1]
[(Xt − Xt−1/Xt−1]

Escolhendo a forma funcional: não-linearidades
• Sabendo a derivada do log: d log Y = dY/Y . Assim:
d log Y
d log X
=
∆Y/Y
∆X/X
= β1
o que significa que uma variação de 1% em X (i.e., ∆X/X) se traduz em uma
variação em Y igual a β1 (∆Y/Y = β1∆X/X).
• Os coeficientes do modelo log − log são expressos como elasticidades.
• Lembre-se que a elasticidade é expressa em porcentagem e não na forma
decimal, portanto, não deve ser multiplicada por 100.

Escolhendo a forma funcional: log-linear
• Da mesma forma, se o modelo é log Y = β0 + β1X + υ, então
d log Y
dX
=
∆Y/Y
∆X
= β1
Note que agora não trabalhamos com variação percentual em X, mas sim uma
variação marginal.
• Em outras palavras, se X aumentar uma unidade, a mudança em Y será de
(β1 × 100)%.
• Essa especiﬁcação log-linear é amplamente usada na literatura sobre capital
humano. Para calcular a taxa de retorno de um ano a mais de educação, por
exemplo.

Escolhendo a forma funcional: linear-log
• Finalmente, se o modelo é Y = β0 + β1 log X + υ, então:
dY
d log X
=
∆Y
∆X/X
= β1,
o que significa que uma variação de 1% em X implica em uma variação em Y de
β1 unidades.
• Note que em todas as especificações os coeficientes das regressões, β′s, são
lineares.

Vari´aveis Dummy
• Até agora, todas as variáveis foram assumidas como sendo de natureza
quantitativa.
• No entanto, muitas variáveis interessantes são expressas em termos qualitativos,
como sexo, escolaridade, períodos de tempo e as estações, privado ou público e
assim por diante.
• Estas medidas qualitativas tem que ser transformadas em alguma proxy, de modo
que possam ser representadam e utilizadas em uma regressão.
• Variáveis binárias (dummies) são transformações discretas e usadas para esta
ﬁnalidade.
• Uma variável dummy para os homens poderiam, portanto, ser expressa da
seguinte forma:
D =



1 se um homem
0 caso contrário (mulher)

Vari´aveis Dummy de Intercepto
• A forma mais básica de aplicação de variáveis dummy é quando apenas o
intercepto é afetado:
Y = β0 + β1X + β2D + υ.
• Se tormamos a esperança condicional em relação às duas categorias de D que
obtemos:
E[Y |D = 1, X] = β0 + β2 + β1X
E[Y |D = 0, X] = β0 + β1X
• A única coisa que difere entre as duas médias condicionais é o coeﬁciente da
variável dummy.
• Suponha o seguinte resultado de um modelo de regressão com Y sendo a taxa
de salário hora, D uma dummy para os homens, e X uma variável para anos de
escolaridade.Os erros padrão são dados entre parênteses:
Y = 55.9
8.16
+ 21.9
4.30
D + 2.4
0.63
X

Variáveis Dummy de Intercepto
• Use os resultados da regressão para calcular quanto maior é a taxa média de
salário por hora para homens. Primeiro temos que verificar se o coeficiente para a
dummy para o sexo masculino é significativa.
• Na literatura empírica sobre capital humano a forma funcional mais utilizada é a
log-linear:
ln Y = 4.02
0.03
+ 0.18
0.02
D + 0.03
0.01
X
Efeito Marginal: eβ1 − 1 = e0.18
− 1 = 0.197.
• Ou seja, os homens ganham, em média, 19.7 por cento a mais por hora do que as
mulheres, o controlando para a educação.

Variáveis Dummy de Inclinaç ão
• Se voltarmos ao modelo de capital humano, é possível argumentar que a
diferença de salário entre homens e mulheres pode ser devido a diferenças no
seu retorno à educação.
Y = β0 + (β1 + β2D)X + υ
= β0 + β1X + β2(DX) + υ
• Assim, uma maneira de testar se o retorno à educação é diferente entre homens e
mulheres seria testar se β2 é diferente de zero, o que deve ser testado antes de
testar se β1 + β2 é diferente de zero.
• Usando o mesmo conjunto de dados do Exemplo acima. Os resultados são
apresentados a seguir com os erros padrão entre parêntesis:
ln Y = 4.11
0.031
+ 0.024
0.003
X + 0.014
0.001
DX
• Para investigar se há uma diferença no retorno da educação entre homens e
mulheres basta testar o coeficiente estimado para o produto cruzado.

Vari´aveis qualitativas com v´arias categorias
• Isso exige uma variável qualitativa com mais de duas categorias. Por exemplo:
D =



0 escola primária
1 escola secundária
2 ensino superior
• Para incluir D diretamente em um modelo de regressão tem que ter certeza de
que o efeito de ir do ensino primário para o ensino secundário na taxa de salário
por hora é do mesmo tamanho do efeito da passagem do ensino secundário para
o ensino pós-secundário.
• Se este não for o caso, temos de permitir diferenças nestes dois efeitos. Existem
pelo menos duas abordagens a este problema.

• A primeira e mais básica abordagem é criar três variáveis binárias; uma para cada
nível de ensino, da seguinte forma:
D1 =



0 escola primária
1 caso contrário
D2 =



0 escola secundária
1 caso contrário
D3 =



0 ensino superior
1 caso contrário
• Podemos agora tratar D1, D2 e D3 como três variáveis explicativas, e incluí-las
no modelo de regressão.
• No entanto, é importante evitar a chamado armadilha variável binária (dummy).

• A armadilha da variável dummy aparece quando o analista tenta especiﬁcar e
estimar o seguinte modelo:
ln Y = β0 + β1D1 + β2D32 + β3D3 + β4X + υ.
• É matematicamente impossível estimar os parâmetros, pois não há variação na
soma das três variáveis dummy, uma vez que D1 + D2 + D3 = 1 para todas as
observações no conjunto de dados.
• A maneira mais fácil de resolver isso é para excluir uma delas e tratar a categoria
que foi excluída como uma categoria de referência.
ln Y = β0 + β2D2 + β3D3 + β4X + υ.
• Isto é, se D1 é excluída, as outras categorias terão D1 como referência.

• β2, portanto, é interpretado como o efeito no salário de ir do ensino primário para
o ensino secundário, e β3 irá representar o efeito no salário de ir do ensino
primário para escolaridade superior.
• Uma alternativa a excluir uma das categorias é de excluir o termo constante, o
que nos daria o modelo:
ln Y = β†
1D1 + β†
2D2 + β†
3D3 + β4X + υ.
• Neste caso as três variáveis dummy irão funcionar como três interceptos neste
modelo; um para cada nível de ensino. Os coeﬁcientes não podem ser
interpretadas como mudanças relativas a este caso.

• Comparar e interpretar os resultados:
Especificação I: ln Y = 3.29
0.043
+ 0.154
0.024
D2 + 0.295
0.022
D3 + 0.009
0.001
X
Especificação II: ln Y = 3.29
0.043
D1 + 4.083
0.034
D2 + 4.224
0.036
D3 + 0.009
0.001
X.
onde as três variáveis dummies representam três níveis de ensino, e X
representa a idade do indivíduo.
• A primeira coisa a notar é que β0 = β†
1, β0 + β2 = β†
2 e β0 + β2 + β3 = β†
3.
Assim, as duas especificações estão muito relacionados.
• Além disso β†
2 − β†
1 = β2 e β†
3 − β†
1 = β3.

Linear regression model

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (10)

Semelhante a Linear regression model

Semelhante a Linear regression model (20)

Mais de Gabriel Peixe

Mais de Gabriel Peixe (6)

Linear regression model