SlideShare uma empresa Scribd logo
Métodos Quantitativos para Finanças e Economia
Análise de Regressão
Jo˜ao F. Caldeira
www.ufrgs.br/ppge/caldeira/
Especializac¸ ˜ao em Economia e Financ¸as, PPGE-UFRGS
Porto Alegre, 12 de setembro de 2017
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 1
Introduc¸ ˜ao
• Um modelo de regressão é um meio formal de expressar um ingrediente
fundamental de uma relação:
◦ uma tendência de uma variável resposta (dependente) Y variar de acordo
com a variação de um preditor X de uma maneira sistemática.
• Postularemos que existe uma distribuição de probabilidade de Y para cada nível
de X e que esta distribuição de probabilidade varia de uma maneira sistemática
conforme X varia.
• A análise de regressão foi primeiramente desenvolvida por Sir Francis Galton na
última parte do século XIX.
• Galton estudou a relação entre as alturas de pais e filhos e notou que as alturas
das crianças dos pais mais altos e mais baixos pareciam “reverter” ou “regredir”
para a média do grupo. Ele chamou esta tendência de “regressão à
mediocridade”.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 2
Exemplos de Regress˜oes
• Regressão da Inflação (Y) sobre Desemprego (X): primeira versão da curva de
Phillips (em nível.
• Regressão do PIB sobre o Desemprego: Tipo a Lei de Okun (só que esta última é
usando a variação);
• Investimento sobre o PIB: chamam de efeito multiplicador, PIB sobre Investimento:
efeito acelerador;
• Investimento sobre Public Debt (Dívida Pública);
• Dívida Pública sobre Tax Burden (Carga Tributária);
• Investimento sobre Corporate Tax Rate (taxa de imposto corporativo);
• Public Debt sobre Investimento (para ver se o gasto do governo expulsa o
investimento - chamam de efeito crowding out).
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 3
Tipos de Dados
• Dados de corte (seção) transversal (coletados no mesmo intervalo de tempo).
◦ Exemplo: o salário de cada um de 100 indivíduos de um inventário.
◦ O mais comum é que os dados sejam quantitativos (salários são medidos em
reais, assim, os dados são números).
◦ Às vezes os dados são qualitativos, mas podem ser convertidos em dados
numéricos, referidas como variáveis dummy.
• Dados de série temporal.
◦ Comum em macroeconomia e finanças: GDP, preços de ações, taxas de
juros, taxa de câmbio, etc.
◦ Os dados são coletados em pontos específicos no tempo (diário, semanal,
mensal, ou todo ano).
• Dados em Painel: dados com componentes de cross-section e de séries
temporais.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 4
An´alise de Regress˜ao
• Objetivo da modelagem: simplificar o mundo complexo a nossa volta e nos
concentrar na essência do problema.
• Um modelo não precisa conter todos os detalhes do mundo complexo para ser
útil. Podemos quebrar os problemas em pequenas partes para ajudar na
compreensão.
• Podemos tentar manter constantes algumas das variáveis envolvidas em nosso
estudo afim de nos concentrar nas demais. Entretanto, devemos estar atentos aos
problemas de variável omitida e causalidade reversa para minorar erros nas
nossas conclusões sobre causa e efeito.
• Exemplo (causalidade reversa): em cidades com mais policiais há um número
maior de crimes. Logo, o policiamento aumenta a violência urbana!? O número de
policiais determina a criminalidade ou a criminalidade determina o número de
policiais?
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 5
An´alise de Regress˜ao
• A análise de regressão tem pelo menos 200 anos.
• Ela é a técnica de modelagem preditiva mais utilizada por ser simples e efetiva.
• Há, no entanto, várias técnicas mais sofisticadas que surgiram desde então.
Ainda assim, o estudo das té cnicas que iremos ver neste curso servem como
fundação para aplicações mais sofisticadas.
• A técnica é utilizada amplamente nas mais diversas áreas. Exemplos: Marketing,
Economia, Psicologia, Bioinformática.
• Às vezes, é útil transformar ou recodificar os dados para obter um bom modelo.
Enfoques condicionais: logaritmo, inversa, potências, etc...
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 6
Modelo Cl´assico de Regress˜ao Linear
• Vamos apresentar os conceitos básicos sobre estimação e testes de uma
regressão usando mínimos quadrados ordinários.
• Definimos um modelo de regressão linear simples como a relação entre Y e X
dada pela seguinte expressão:
Y = β0 + β1X + υ
onde:
◦ Y é a variável dependente, variável resposta, ou regressando;
◦ X é a variável independente, variável explicativa, ou regressor;
◦ β0 e β1 são os coeficientes da regressão, os quais são constantes;
◦ υ é o distúrbio estocástico ou termo de erro.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 7
Modelo de Regress˜ao Linear
• Modelo de Regressão Linear Populacional:
• Interpretação dos parâmetros:
◦ β0 (intercepto) ´e o valor da m´edia da distribuic¸ ˜ao de Y em X = 0, nem sempre tem
significado pr´atico como um termo separado (isolado) no modelo;
◦ β1 (inclinac¸ ˜ao) expressa a taxa de mudanc¸a em Y , isto ´e, a mudanc¸a em Y quando ocorre a
mudanc¸a de uma unidade em X.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 8
Modelo de Regress˜ao Linear
• Modelo de Regressão Linear Amostral
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 9
Motivac¸ ˜ao
• Como estimar o impacto de uma variável sobre a outra, o efeito causal, com base
em uma amostra de dados aleatória?
• Conversa de bar: o governo deve aumentar o número de policiais nas ruas para
reduzir a criminalidade ...
• Conversa de corredor: se a nossa turma fosse menor, o desempenho da classe
seria melhor;
• Conversa com os pais: preciso fazer pós-graduação para que o meu salário
aumente.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 10
Causalidade versus correlac¸ ˜ao
• Pesquisadores frequentemente são tentados a inferir uma relação de causa e
efeito entre X e Y quando eles ajustam um modelo de regressão ou realizam
uma análise de correlação.
• Uma associação significativa entre X e Y em ambas as situações não
necessariamente implica numa relação de causa e efeito.
• Correlação: indica a força e a direção do relacionamento linear entre duas
variáveis aleatórias, embora correlação não implique causalidade.
• Regressão: é um método para se estimar a média condicional (valor esperado) de
uma variável Y , dados os valores de algumas outras variáveis X.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 11
Construc¸ ˜ao de Modelos de Regress˜ao
• Seleção das variáveis preditoras;
• Escolha do Modelo de Regressão;
• Abrangência do Modelo.
• Obs: O problema, em estudos observacionais, é escolher o conjunto de variáveis
que podem ou devem ser incluídas no modelo.
• Dificuldades Pr´aticas:
◦ Nem todos os dados de interesse estão disponíveis;
◦ A base de dados pode não ser suficientemente ampla;
◦ Os resultados dificilmente podem ser generalizados;
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 12
Modelo Cl´assico de Regress˜ao Linear
• 1◦ Passo: Compreender o modelo clássico de regressão linear (MCRL regressão
simples);
• 2◦ Passo: Limitações do modelo;
• 3◦ Passo: Extensão do modelo simples para o modelo de regressão múltipla;
• 4◦ Passo: Testes para a verificação dos pressupostos do MMQO.
• Análise de regressão é uma metodologia estatística que utiliza a relação entre
duas ou mais variáveis quantitativas (ou qualitativas) de tal forma que uma
variável pode ser predita a partir da outra ou outras;
• Estamos interessados na relação entre duas variáveis, as quais chamaremos de
X e Y. Observamos pares de valores X e Y em cada amostra ou unidade
experimental, e vamos usá-los para dizer alguma coisa sobre a relação.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 13
Modelo de Regress˜ao Linear
• Considere o modelo com uma variável preditora, em que a função de regressão é
linear. O modelo é dado por:
Y = β0 + β1Xi + υi, i = 1, . . . , N.
onde:
◦ β0 (intercepto); quando a amostra inclui X = 0, β0 é o valor da média de Y
em X = 0, não tem significado prático como um termo separado (isolado) no
modelo.
◦ β1 (inclinação): expressa a variação esperada na variável dependente,
quando a variável independente varia uma unidade. Ele indica a mudança na
média da distribuição de probabilidade de Y por unidade de acréscimo em X.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 14
Modelo de Regress˜ao Linear: Exemplo
• Observe o modelo teórico para a estimação das quantidades demandadas:
Qd
= β0 − β1Pi
• Nos modelos teóricos, costuma-se atribuir de antemão valores para β0
(intercepto) e β1 (coeficiente angular).
• Por exemplo:
Qd
= 10 − 2Pi
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 15
Modelo de Regress˜ao Linear: Exemplo
• Com a equação em mãos, basta escolher valores para o preço (variável
independente) e descobrir qual será a quantidade demanda para cada nível de
preço;
• O problema é que, na prática, β0 e β1 são desconhecidos.
• Logo, para obter a quantidade demandada para cada nível de preço é preciso
estimar uma função de demanda, ou seja, obter estimativas de β0 e β1.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 16
O M´etodo dos M´ınimos Quadrados Ordin´arios (MQO)
• Uma vez que não é possível saber quais os verdadeiros valores dos β′s, não será
possível encontrar a reta de regressão populacional(!)
E(Yi/Xi) = β0 + β1Xi
• Como proceder?
• O objetivo, portanto, é encontrar a reta de regressão que mais se aproxima da reta
regressão populacional; ou seja, descobrir a reta que melhor se ajusta aos dados.
• Observe, portanto, que o desafio é descobrir quais os estimadores (os
betas-chapéu) que mais se aproximam dos verdadeiros valores dos parâmetros
populacionais.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 17
O M´etodo dos M´ınimos Quadrados Ordin´arios (MQO)
• É possível escrever o modelo linear de regressão simples como:
Yi = β0 + β1Xi
ou
Yi = E (Yi/Xi) + υi
• Uma vez que E(yi/xi) = β0 + β1xi é uma reta e os β′s são desconhecidos, é
possível utilizar a função de regressão amostral e, em seguida, isolar os resíduos,
ou seja:
Yi = β0 + β1Xi + υi ou
υi = Yi − β0 + β1Xi ou ainda
υi = Yi − Yi
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 18
O M´etodo dos M´ınimos Quadrados Ordin´arios (MQO)
• Intuitivamente, o que se busca é a menor distância entre yi e yi, ou seja, a menor
diferença entre o valor estimado (previsto) e o valor observado. Em outros termos,
o menor valor para a soma dos resíduos.
• Para evitar que a soma dos resíduos seja igual a zero, utiliza-se a soma dos
quadrados dos resíduos.
• O método consiste em minimizar a função dada por:
min
β0,β1
N
i=1
ˆυ2
i = min
β0,β1
n
i=1
Yi − β0 − β1Xi
2
• Nesse caso, os valores betas-chapéu estimados serão os melhores estimadores
lineares, pois minimizam a distância entre o valor positivo e o valor esperado.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 19
O M´etodo dos M´ınimos Quadrados Ordin´arios (MQO)
• Tomando as derivadas parciais com respeito aos parâmetros e resolvendo as
condições de primeira ordem:
ˆβ1 =
N
i=1
(xi − x) (yi − y)
N
i=1
(xi − x)
=
N
i=1
wi (yi − y)
ˆβ0 = y − ˆβ1x
onde:
wi =
(xi − x)
N
i=1
(xi − x)2
o que mostra que ˆβ1 é uma função linear de y. O mesmo argumento se aplica aos
estimadores de OLS de um modelo de regressão múltiplo.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 20
Hip´oteses do Modelo de Regress˜ao Linear
• H1 (Linearidade dos parâmetros): O modelo de regressão linear populacional é
linear nos coeficientes da regressão:
Y = β0 + β1X1 + β2X2 + β3X3 + . . . + βkXk + υ.
• H2 (Amostragem aleatória): Podemos extrair uma amostra aleatória da
população:
{(x1i, . . . , xki, yi) , i = 1, . . . , n}
• H3 (Média Condicional Zero): Condicional aos regressores, o valor esperado do
termo de erro é zero:
E (υ|X1, X2, . . . , Xk) = 0
Esta é a hipótese mais importante do modelo de regressão populacional.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 21
Hip´oteses do Modelo de Regress˜ao Linear
• H4 (Ausência de Colinearidade Perfeita): As variáveis explicativas 1, X1, . . . , XK
são linearmente independentes. Logo, Xj, j = 1, . . . , K, não podem ser
constantes. 






1 X11 X12 . . . XK1
1 X21 X22 . . . XK2
. . . . . . . . . . . . . . . . . . . . . . . . . . . .
1 X1n X2n . . . XKn







n×(K+1)
Esta hipótese implica que o posto(X) = K + 1, pois n ≥ K + 1. (Não existe uma
relação linear exata entre os regressores. Com multicolinearidade perfeita, o
modelo não pode ser estimado por OLS. Um dos regressores precisa ser
removido).
• H5 (Homocedasticidade): Condicional aos regressores, a variância do termo de
erro é constante:
var (υ|X1, X2, . . . , Xk) = σ2
υ
ou, a variância condicional da variável dependente é constante.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 22
Hip´oteses do Modelo de Regress˜ao Linear
• H6 (Ausência de Correlação Serial): Ausência de correlação serial significa que
os termos de erro não são correlacionados ao longo do tempo:
cov (υi, υj|X) = 0, ∀i, j, i = j.
Esta hipótese refere-se a um modelo de regressão para o qual os dados são
coletados ao longo do tempo.
• H7 (Variação Amostral nos Regressores): Todos os regressores devem ter
variâncias positivas, isto é, nenhum regressor pode ser constante para todas as
observações amostra:
var (Xj) > 0, j = 1, 2, . . . , k.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 23
O Teorema de Gauss-Markov
• Sob (algumas) as hipóteses do modelo clássico de regresão linear, os
estimadores ˆβ0, ˆβ1, . . . , ˆβk são os best linear unbiased estimators (BLUE) dos
respectivos coeficientes de regressão populacional (β0, β1, . . . , βk).
• Linear: O estimador ˆβ é uma função linear das variáveis dependentes. Vamos
trabalhar com ˆβ1:
ˆβ1 =
N
i=1
(xi − x) (yi − y)
N
i=1
(xi − x)
=
N
i=1
wi (yi − y)
onde:
wi =
(xi − x)
N
i=1
(xi − x)2
o que mostra que ˆβ1 é uma função linear de y. O mesmo argumento se aplica aos
estimadores de OLS de um modelo de regressão múltiplo.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 24
O Teorema de Gauss-Markov
• Unbiased: O valor esperado do estimador de OLS ˆβ é o correspondente
coeficiente da regressão populacional:
E ˆβj = βj, j = 1, 2, . . . , k.
mesmo na presença de heterocedasticidade e correlação serial, os estimadores
de OLS ainda são não-viesados.
• Significa que se pegarmos um número de amostras e estimarmos os parâmetros
populacionais com estas amostras, o valor médio das estimativas será igual ao
valor populacional quando o números de amostras tender a infinito.
E β0 = β0,
E β1 = β1.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 25
O Teorema de Gauss-Markov
• Best: Significa que que a variância do estimador de OLS ˆβ é a menor dentre
quaisquer outros estimadores lineares não-viesados:
var ˆβj ≤ var ˜βj , j = 1, 2, . . . , k.
esta propriedade é conhecida como propriedade da eficiência. Todas as
hipóteses enunciadas são necessárias para a validade desta propriedade.
• Eficiência dos estimadores não viesados: o estimador é eficiente e nenhum
outro estimador linear não viesado tem maior precisão (menor variância) . Requer
que a variância seja homocedástica e não autocorrelacionada ao longo do tempo.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 26
Propriedade dos Estimadores de M´ınimos Quadrados
• Consistência: Significa que quando o tamanho da amostra cresce, tende a
infinito, a variância dos parâmetros deve convergir para zero e os parâmetros
convergem para os parâmetros populacionais.
◦ Um estimador pode ser viesado e ainda assim consistente, mas não é
possível um estimador ser não viesado e inconsistente.
• Parâmetros normalmente distribuídos: Uma vez que os parâmetros são
médias ponderadas das variáveis dependentes, eles podem ser tratados como
uma média.
◦ De acordo com o teorema do limite central, a média é normalmente
distribuída.
◦ Consequentemente, os estimadores de OLS são normalmente distribuídos
em amostras suficientemente grandes.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 27
R-quadrado e R2
-ajustado
• Uma medida da qualidade de ajuste - quão bem o modelo ajustado explica a
variabilidade de Y - é fornecida pelo R-quadrado da regressão, o qual é conhecido
como coeficiente de determinac¸ ˜ao.
• O coeficiente de determinação busca decompor o desvio em torno da média em
uma parte explicada e outra parte inexplicada:
Yi − Y = Yi − Y + Yi − ˆYi + Yi − Y
Explicado
+ Yi − ˆYi
Não-Explicado υi
• Assim, definimos a seguinte partição da soma de quadrados total.
• Soma dos Quadrados dos Total:
SST =
n
i=1
Yi − Y
2
que é a variação total amostral na variável dependente y com respeito à sua
média amostral.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 28
R-quadrado e R-quadrado ajustado
• Soma dos Quadrados da Explicada:
SSE =
n
i=1
Yi − Y i
2
que é a variação total amostral nos valores ajustados y com respeito à sua média
amostral.
• Soma dos Quadrados dos Resíduos:
SSR =
n
i=1
Yi − Yi
2
=
n
i=1
υ2
i
que é a variação amostral nos resíduos υ com respeito à sua média amostral, a
qual é igual a zero.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 29
R-quadrado e R-quadrado ajustado
• Isso prova que a variação total pode ser decomposta em variação explicada e
variação inexplicada:
SST = SSE + SSR
• Com base nesta relação, o R-quadrado é definido como a razão:
R2
=
SSE
SST
= 1 −
SSR
SST
a qual é a proporção da variação amostral da variável dependente explicada pelo
(s) regressor (es).
• Coeficiente de determinac¸ ˜ao: é uma medida de aderência da regressão, que mede o
sucesso dentro da amostra do modelo de regressão:
0 ≤ R2
≤ 1.
É também interpretado como a proporção da variância da variável dependente
que é explicada pelas variáveis explanatórias.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 30
O Coeficiente de determinac¸ ˜ao ajustado - R
2
• Um problema com o R2 é que qualquer variável adicionada ao modelo, por menor
que seja o seu poder de explicação, gera um crescimento no R2 normal.
• Logo, o R2-ajustado busca penalizar a estatística pelo acréscimo de variáveis
irrelevantes.
• O R
2
tem a mesma interpretação que o R2. A diferença é que o R
2
é corrigido
pelo número de graus de liberdade:
R
2
= 1 −
SSR/(n − k − 1)
SST(n − 1)
= 1 − 1 − R2 n − k
n − k − 1
.
• Comparando ambos os R-quadrados, podemos ver que:
R
2
≤ R2
.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 31
Exerc´ıcio: MCRL
• Utilizando o banco de dados mroz (contido no xlsx) faça uma regressão via
mínimos quadrados ordinários do log do salário (lwage) sobre uma constante,
edução (educ), experiência (exper) e experiência ao quadrado (expersq).
Interprete os resultados dos coefficientes (Como eles foram calculados? E os
erros-padrão? E R2?)
lwage = β0 + β1educ + β2exper + β3exper
2
• Faça as questões da lista de exercícios.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 32
Escolhendo a forma funcional: n˜ao-linearidades
• É possível incorporar algumas não-linearidades em um modelo de regressão
redefinindo os regressores e/ou a variável dependente. Suponha que façamos
W = X2, então Y = β0 + β1X + β2X2 pode ser escrito como
Y = β0 + β1X + β2W + υ.
O qual é uma função linear de W e pode ser estimado por OLS.
• Outras especificações não-lineares tais como a log − log, ou semilog também são
modelos considerados.
• Por exemplo, em:
log Y = β0 + β1 log X + υ.
qual é a resposta de Y a uma mudança marginal em X?
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 33
Por que usar o log natural?
• Taxa de Crescimento: A primeira-diferença do logaritmo de Y é
aproximadamente igual a taxa de crescimento de Y .
log yt − log yt−1
∼=
y1 − yt−1
yt−1
• Em termos percentuais,
%∆yt
∼= 100 ∗ ∆ log yt = 100 ∗ (log yt − log yt−1)
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 34
Por que usar o log natural?
• O logaritmo natural como expressão da elasticidade:
log(Yt) = α + β log(Xt)
log(Yt) = β∆ log(Xt)
∆ log(Yt)
∆ log(Xt)
= β
• Mas:
∆ log(Yt) = log(Yt) − log(Yt−1) = log
Yt
Yt−1
≈
Yt − Yt−1
Yt−1
• Então:
∆ log(Yt)
∆ log(Xt)
=
[(Yt − Yt−1)/Yt−1]
[(Xt − Xt−1/Xt−1]
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 35
Escolhendo a forma funcional: n˜ao-linearidades
• Sabendo a derivada do log: d log Y = dY/Y . Assim:
d log Y
d log X
=
∆Y/Y
∆X/X
= β1
o que significa que uma variação de 1% em X (i.e., ∆X/X) se traduz em uma
variação em Y igual a β1 (∆Y/Y = β1∆X/X).
• Os coeficientes do modelo log − log são expressos como elasticidades.
• Lembre-se que a elasticidade é expressa em porcentagem e não na forma
decimal, portanto, não deve ser multiplicada por 100.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 36
Escolhendo a forma funcional: log-linear
• Da mesma forma, se o modelo é log Y = β0 + β1X + υ, então
d log Y
dX
=
∆Y/Y
∆X
= β1
Note que agora não trabalhamos com variação percentual em X, mas sim uma
variação marginal.
• Em outras palavras, se X aumentar uma unidade, a mudança em Y será de
(β1 × 100)%.
• Essa especificação log-linear é amplamente usada na literatura sobre capital
humano. Para calcular a taxa de retorno de um ano a mais de educação, por
exemplo.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 37
Escolhendo a forma funcional: linear-log
• Finalmente, se o modelo é Y = β0 + β1 log X + υ, então:
dY
d log X
=
∆Y
∆X/X
= β1,
o que significa que uma variação de 1% em X implica em uma variação em Y de
β1 unidades.
• Note que em todas as especificações os coeficientes das regressões, β′s, são
lineares.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 38
Vari´aveis Dummy
• Até agora, todas as variáveis foram assumidas como sendo de natureza
quantitativa.
• No entanto, muitas variáveis interessantes são expressas em termos qualitativos,
como sexo, escolaridade, períodos de tempo e as estações, privado ou público e
assim por diante.
• Estas medidas qualitativas tem que ser transformadas em alguma proxy, de modo
que possam ser representadam e utilizadas em uma regressão.
• Variáveis binárias (dummies) são transformações discretas e usadas para esta
finalidade.
• Uma variável dummy para os homens poderiam, portanto, ser expressa da
seguinte forma:
D =



1 se um homem
0 caso contrário (mulher)
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 39
Vari´aveis Dummy de Intercepto
• A forma mais básica de aplicação de variáveis dummy é quando apenas o
intercepto é afetado:
Y = β0 + β1X + β2D + υ.
• Se tormamos a esperança condicional em relação às duas categorias de D que
obtemos:
E[Y |D = 1, X] = β0 + β2 + β1X
E[Y |D = 0, X] = β0 + β1X
• A única coisa que difere entre as duas médias condicionais é o coeficiente da
variável dummy.
• Suponha o seguinte resultado de um modelo de regressão com Y sendo a taxa
de salário hora, D uma dummy para os homens, e X uma variável para anos de
escolaridade.Os erros padrão são dados entre parênteses:
Y = 55.9
8.16
+ 21.9
4.30
D + 2.4
0.63
X
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 40
Vari´aveis Dummy de Intercepto
• Use os resultados da regressão para calcular quanto maior é a taxa média de
salário por hora para homens. Primeiro temos que verificar se o coeficiente para a
dummy para o sexo masculino é significativa.
• Na literatura empírica sobre capital humano a forma funcional mais utilizada é a
log-linear:
ln Y = 4.02
0.03
+ 0.18
0.02
D + 0.03
0.01
X
Efeito Marginal: eβ1 − 1 = e0.18
− 1 = 0.197.
• Ou seja, os homens ganham, em média, 19.7 por cento a mais por hora do que as
mulheres, o controlando para a educação.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 41
Vari´aveis Dummy de Inclinac¸ ˜ao
• Se voltarmos ao modelo de capital humano, é possível argumentar que a
diferença de salário entre homens e mulheres pode ser devido a diferenças no
seu retorno à educação.
Y = β0 + (β1 + β2D)X + υ
= β0 + β1X + β2(DX) + υ
• Assim, uma maneira de testar se o retorno à educação é diferente entre homens e
mulheres seria testar se β2 é diferente de zero, o que deve ser testado antes de
testar se β1 + β2 é diferente de zero.
• Usando o mesmo conjunto de dados do Exemplo acima. Os resultados são
apresentados a seguir com os erros padrão entre parêntesis:
ln Y = 4.11
0.031
+ 0.024
0.003
X + 0.014
0.001
DX
• Para investigar se há uma diferença no retorno da educação entre homens e
mulheres basta testar o coeficiente estimado para o produto cruzado.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 42
Vari´aveis qualitativas com v´arias categorias
• Isso exige uma variável qualitativa com mais de duas categorias. Por exemplo:
D =



0 escola primária
1 escola secundária
2 ensino superior
• Para incluir D diretamente em um modelo de regressão tem que ter certeza de
que o efeito de ir do ensino primário para o ensino secundário na taxa de salário
por hora é do mesmo tamanho do efeito da passagem do ensino secundário para
o ensino pós-secundário.
• Se este não for o caso, temos de permitir diferenças nestes dois efeitos. Existem
pelo menos duas abordagens a este problema.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 43
Vari´aveis qualitativas com v´arias categorias
• A primeira e mais básica abordagem é criar três variáveis binárias; uma para cada
nível de ensino, da seguinte forma:
D1 =



0 escola primária
1 caso contrário
D2 =



0 escola secundária
1 caso contrário
D3 =



0 ensino superior
1 caso contrário
• Podemos agora tratar D1, D2 e D3 como três variáveis explicativas, e incluí-las
no modelo de regressão.
• No entanto, é importante evitar a chamado armadilha variável binária (dummy).
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 44
Vari´aveis qualitativas com v´arias categorias
• A armadilha da variável dummy aparece quando o analista tenta especificar e
estimar o seguinte modelo:
ln Y = β0 + β1D1 + β2D32 + β3D3 + β4X + υ.
• É matematicamente impossível estimar os parâmetros, pois não há variação na
soma das três variáveis dummy, uma vez que D1 + D2 + D3 = 1 para todas as
observações no conjunto de dados.
• A maneira mais fácil de resolver isso é para excluir uma delas e tratar a categoria
que foi excluída como uma categoria de referência.
ln Y = β0 + β2D2 + β3D3 + β4X + υ.
• Isto é, se D1 é excluída, as outras categorias terão D1 como referência.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 45
Vari´aveis qualitativas com v´arias categorias
• β2, portanto, é interpretado como o efeito no salário de ir do ensino primário para
o ensino secundário, e β3 irá representar o efeito no salário de ir do ensino
primário para escolaridade superior.
• Uma alternativa a excluir uma das categorias é de excluir o termo constante, o
que nos daria o modelo:
ln Y = β†
1D1 + β†
2D2 + β†
3D3 + β4X + υ.
• Neste caso as três variáveis dummy irão funcionar como três interceptos neste
modelo; um para cada nível de ensino. Os coeficientes não podem ser
interpretadas como mudanças relativas a este caso.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 46
Vari´aveis qualitativas com v´arias categorias
• Comparar e interpretar os resultados:
Especificação I: ln Y = 3.29
0.043
+ 0.154
0.024
D2 + 0.295
0.022
D3 + 0.009
0.001
X
Especificação II: ln Y = 3.29
0.043
D1 + 4.083
0.034
D2 + 4.224
0.036
D3 + 0.009
0.001
X.
onde as três variáveis dummies representam três níveis de ensino, e X
representa a idade do indivíduo.
• A primeira coisa a notar é que β0 = β†
1, β0 + β2 = β†
2 e β0 + β2 + β3 = β†
3.
Assim, as duas especificações estão muito relacionados.
• Além disso β†
2 − β†
1 = β2 e β†
3 − β†
1 = β3.
M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 47

Mais conteúdo relacionado

Mais procurados

Modelo de regressão linear: aspectos teóricos e computacionais
Modelo de regressão linear: aspectos teóricos e computacionais Modelo de regressão linear: aspectos teóricos e computacionais
Modelo de regressão linear: aspectos teóricos e computacionais
Rodrigo Rodrigues
 
Regressao linear multipla
Regressao linear multiplaRegressao linear multipla
Regressao linear multipla
aniziorochaaraujo
 
Aula 02 - Estatística da vida cotidiana
Aula 02 - Estatística da vida cotidianaAula 02 - Estatística da vida cotidiana
Aula 02 - Estatística da vida cotidiana
Dalton Martins
 
Aula 2 resumo de dados
Aula 2   resumo de dadosAula 2   resumo de dados
Aula 2 resumo de dados
Ariel Rennó Chaves
 
Estatística Descritiva - parte 1 (ISMT)
Estatística Descritiva - parte 1 (ISMT)Estatística Descritiva - parte 1 (ISMT)
Estatística Descritiva - parte 1 (ISMT)
João Leal
 
Análise de Componentes Principais
Análise de Componentes PrincipaisAnálise de Componentes Principais
Análise de Componentes Principais
Célia M. D. Sales
 
Estatistica conceitos
Estatistica conceitosEstatistica conceitos
Estatistica conceitos
Edinardo Correia
 
Estatística
EstatísticaEstatística
Estatística
paulocsm
 
Aula bioestatistica
Aula bioestatisticaAula bioestatistica
Aula bioestatistica
AleNiv
 
Econometria
EconometriaEconometria
Econometria
Gilberto Freitas
 

Mais procurados (10)

Modelo de regressão linear: aspectos teóricos e computacionais
Modelo de regressão linear: aspectos teóricos e computacionais Modelo de regressão linear: aspectos teóricos e computacionais
Modelo de regressão linear: aspectos teóricos e computacionais
 
Regressao linear multipla
Regressao linear multiplaRegressao linear multipla
Regressao linear multipla
 
Aula 02 - Estatística da vida cotidiana
Aula 02 - Estatística da vida cotidianaAula 02 - Estatística da vida cotidiana
Aula 02 - Estatística da vida cotidiana
 
Aula 2 resumo de dados
Aula 2   resumo de dadosAula 2   resumo de dados
Aula 2 resumo de dados
 
Estatística Descritiva - parte 1 (ISMT)
Estatística Descritiva - parte 1 (ISMT)Estatística Descritiva - parte 1 (ISMT)
Estatística Descritiva - parte 1 (ISMT)
 
Análise de Componentes Principais
Análise de Componentes PrincipaisAnálise de Componentes Principais
Análise de Componentes Principais
 
Estatistica conceitos
Estatistica conceitosEstatistica conceitos
Estatistica conceitos
 
Estatística
EstatísticaEstatística
Estatística
 
Aula bioestatistica
Aula bioestatisticaAula bioestatistica
Aula bioestatistica
 
Econometria
EconometriaEconometria
Econometria
 

Semelhante a Linear regression model

Introdução a Machine Learning
Introdução a Machine LearningIntrodução a Machine Learning
Introdução a Machine Learning
Sandro Moreira
 
U1S4 - PPCP e Técnicas de Previsão de Demanda.pdf
U1S4 - PPCP e Técnicas de Previsão de Demanda.pdfU1S4 - PPCP e Técnicas de Previsão de Demanda.pdf
U1S4 - PPCP e Técnicas de Previsão de Demanda.pdf
CelsoCiamponi1
 
Regressao linear
Regressao linearRegressao linear
Regressao linear
Mitsubishi Motors Brasil
 
estatistica discreta, estatistica inferencial
estatistica discreta, estatistica inferencialestatistica discreta, estatistica inferencial
estatistica discreta, estatistica inferencial
ElizeuNetto2
 
Estatística aplicada à gestão de recursos humanos
Estatística aplicada  à gestão de recursos humanosEstatística aplicada  à gestão de recursos humanos
Estatística aplicada à gestão de recursos humanos
aurelio2machado
 
IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)
IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)
IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)
Rafael José Rorato
 
2012 - Tese - Análise multivariada e filtros de graham
2012 - Tese - Análise multivariada e filtros de graham2012 - Tese - Análise multivariada e filtros de graham
2012 - Tese - Análise multivariada e filtros de graham
Alysson Ramos Artuso
 
Programa de Equalização em Estatística - 2014 A
Programa de Equalização em Estatística - 2014 APrograma de Equalização em Estatística - 2014 A
Programa de Equalização em Estatística - 2014 A
Sustentare Escola de Negócios
 
Aula 4 modelos de regressão linear
Aula 4   modelos de regressão linearAula 4   modelos de regressão linear
Aula 4 modelos de regressão linear
Rodrigo Rodrigues
 
Trabalho de analise de regressao 2012 trab2
Trabalho de analise de regressao 2012 trab2Trabalho de analise de regressao 2012 trab2
Trabalho de analise de regressao 2012 trab2
Samuel Orlando Nhantumbo
 
Aula03
Aula03Aula03
Aula 04 - Tópicos em Gestão da Informação Medidas de posição relativa
Aula 04 - Tópicos em Gestão da Informação Medidas de posição relativaAula 04 - Tópicos em Gestão da Informação Medidas de posição relativa
Aula 04 - Tópicos em Gestão da Informação Medidas de posição relativa
Dalton Martins
 
Conceito - estatística.pptx
Conceito - estatística.pptxConceito - estatística.pptx
Conceito - estatística.pptx
MarcieleLima6
 
Apresentação Geral de Indicadores.ppt
Apresentação Geral de Indicadores.pptApresentação Geral de Indicadores.ppt
Apresentação Geral de Indicadores.ppt
Pedro Luis Moraes
 
Topicos de econometria de séries temporais 2020_1
Topicos de econometria de séries temporais 2020_1 Topicos de econometria de séries temporais 2020_1
Topicos de econometria de séries temporais 2020_1
Adriano Figueiredo
 
Aula 7 análise fatorial
Aula 7  análise fatorialAula 7  análise fatorial
Aula 7 análise fatorial
Rodrigo Rodrigues
 
Cap 2 gujarati alunos
Cap 2 gujarati   alunosCap 2 gujarati   alunos
Cap 2 gujarati alunos
Saulo Jardim
 
Sld 2
Sld 2Sld 2
Probabilidade estatatìstica e contabilidade
Probabilidade estatatìstica e contabilidadeProbabilidade estatatìstica e contabilidade
Probabilidade estatatìstica e contabilidade
Leonel Boano
 
Administração da Produção - Previsão de Demanda
Administração da Produção - Previsão de DemandaAdministração da Produção - Previsão de Demanda
Administração da Produção - Previsão de Demanda
douglas
 

Semelhante a Linear regression model (20)

Introdução a Machine Learning
Introdução a Machine LearningIntrodução a Machine Learning
Introdução a Machine Learning
 
U1S4 - PPCP e Técnicas de Previsão de Demanda.pdf
U1S4 - PPCP e Técnicas de Previsão de Demanda.pdfU1S4 - PPCP e Técnicas de Previsão de Demanda.pdf
U1S4 - PPCP e Técnicas de Previsão de Demanda.pdf
 
Regressao linear
Regressao linearRegressao linear
Regressao linear
 
estatistica discreta, estatistica inferencial
estatistica discreta, estatistica inferencialestatistica discreta, estatistica inferencial
estatistica discreta, estatistica inferencial
 
Estatística aplicada à gestão de recursos humanos
Estatística aplicada  à gestão de recursos humanosEstatística aplicada  à gestão de recursos humanos
Estatística aplicada à gestão de recursos humanos
 
IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)
IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)
IESB Logística Empresarial - Métodos Quantitativos - Volume III (incompleta)
 
2012 - Tese - Análise multivariada e filtros de graham
2012 - Tese - Análise multivariada e filtros de graham2012 - Tese - Análise multivariada e filtros de graham
2012 - Tese - Análise multivariada e filtros de graham
 
Programa de Equalização em Estatística - 2014 A
Programa de Equalização em Estatística - 2014 APrograma de Equalização em Estatística - 2014 A
Programa de Equalização em Estatística - 2014 A
 
Aula 4 modelos de regressão linear
Aula 4   modelos de regressão linearAula 4   modelos de regressão linear
Aula 4 modelos de regressão linear
 
Trabalho de analise de regressao 2012 trab2
Trabalho de analise de regressao 2012 trab2Trabalho de analise de regressao 2012 trab2
Trabalho de analise de regressao 2012 trab2
 
Aula03
Aula03Aula03
Aula03
 
Aula 04 - Tópicos em Gestão da Informação Medidas de posição relativa
Aula 04 - Tópicos em Gestão da Informação Medidas de posição relativaAula 04 - Tópicos em Gestão da Informação Medidas de posição relativa
Aula 04 - Tópicos em Gestão da Informação Medidas de posição relativa
 
Conceito - estatística.pptx
Conceito - estatística.pptxConceito - estatística.pptx
Conceito - estatística.pptx
 
Apresentação Geral de Indicadores.ppt
Apresentação Geral de Indicadores.pptApresentação Geral de Indicadores.ppt
Apresentação Geral de Indicadores.ppt
 
Topicos de econometria de séries temporais 2020_1
Topicos de econometria de séries temporais 2020_1 Topicos de econometria de séries temporais 2020_1
Topicos de econometria de séries temporais 2020_1
 
Aula 7 análise fatorial
Aula 7  análise fatorialAula 7  análise fatorial
Aula 7 análise fatorial
 
Cap 2 gujarati alunos
Cap 2 gujarati   alunosCap 2 gujarati   alunos
Cap 2 gujarati alunos
 
Sld 2
Sld 2Sld 2
Sld 2
 
Probabilidade estatatìstica e contabilidade
Probabilidade estatatìstica e contabilidadeProbabilidade estatatìstica e contabilidade
Probabilidade estatatìstica e contabilidade
 
Administração da Produção - Previsão de Demanda
Administração da Produção - Previsão de DemandaAdministração da Produção - Previsão de Demanda
Administração da Produção - Previsão de Demanda
 

Mais de Gabriel Peixe

Algoritmos de Clusterização
Algoritmos de ClusterizaçãoAlgoritmos de Clusterização
Algoritmos de Clusterização
Gabriel Peixe
 
O framework de big data para inteligência de marketing dinâmica
O framework de big data para inteligência de marketing dinâmicaO framework de big data para inteligência de marketing dinâmica
O framework de big data para inteligência de marketing dinâmica
Gabriel Peixe
 
Sistema de recomendações de Filmes do Netflix
Sistema de recomendações de Filmes do NetflixSistema de recomendações de Filmes do Netflix
Sistema de recomendações de Filmes do Netflix
Gabriel Peixe
 
Social Big Data - Inovação e Branding
Social Big Data - Inovação e BrandingSocial Big Data - Inovação e Branding
Social Big Data - Inovação e Branding
Gabriel Peixe
 
Wilex é isso mesmo!
Wilex   é isso mesmo!Wilex   é isso mesmo!
Wilex é isso mesmo!
Gabriel Peixe
 
O planejamento
O planejamentoO planejamento
O planejamento
Gabriel Peixe
 

Mais de Gabriel Peixe (6)

Algoritmos de Clusterização
Algoritmos de ClusterizaçãoAlgoritmos de Clusterização
Algoritmos de Clusterização
 
O framework de big data para inteligência de marketing dinâmica
O framework de big data para inteligência de marketing dinâmicaO framework de big data para inteligência de marketing dinâmica
O framework de big data para inteligência de marketing dinâmica
 
Sistema de recomendações de Filmes do Netflix
Sistema de recomendações de Filmes do NetflixSistema de recomendações de Filmes do Netflix
Sistema de recomendações de Filmes do Netflix
 
Social Big Data - Inovação e Branding
Social Big Data - Inovação e BrandingSocial Big Data - Inovação e Branding
Social Big Data - Inovação e Branding
 
Wilex é isso mesmo!
Wilex   é isso mesmo!Wilex   é isso mesmo!
Wilex é isso mesmo!
 
O planejamento
O planejamentoO planejamento
O planejamento
 

Linear regression model

  • 1. Métodos Quantitativos para Finanças e Economia Análise de Regressão Jo˜ao F. Caldeira www.ufrgs.br/ppge/caldeira/ Especializac¸ ˜ao em Economia e Financ¸as, PPGE-UFRGS Porto Alegre, 12 de setembro de 2017 M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 1
  • 2. Introduc¸ ˜ao • Um modelo de regressão é um meio formal de expressar um ingrediente fundamental de uma relação: ◦ uma tendência de uma variável resposta (dependente) Y variar de acordo com a variação de um preditor X de uma maneira sistemática. • Postularemos que existe uma distribuição de probabilidade de Y para cada nível de X e que esta distribuição de probabilidade varia de uma maneira sistemática conforme X varia. • A análise de regressão foi primeiramente desenvolvida por Sir Francis Galton na última parte do século XIX. • Galton estudou a relação entre as alturas de pais e filhos e notou que as alturas das crianças dos pais mais altos e mais baixos pareciam “reverter” ou “regredir” para a média do grupo. Ele chamou esta tendência de “regressão à mediocridade”. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 2
  • 3. Exemplos de Regress˜oes • Regressão da Inflação (Y) sobre Desemprego (X): primeira versão da curva de Phillips (em nível. • Regressão do PIB sobre o Desemprego: Tipo a Lei de Okun (só que esta última é usando a variação); • Investimento sobre o PIB: chamam de efeito multiplicador, PIB sobre Investimento: efeito acelerador; • Investimento sobre Public Debt (Dívida Pública); • Dívida Pública sobre Tax Burden (Carga Tributária); • Investimento sobre Corporate Tax Rate (taxa de imposto corporativo); • Public Debt sobre Investimento (para ver se o gasto do governo expulsa o investimento - chamam de efeito crowding out). M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 3
  • 4. Tipos de Dados • Dados de corte (seção) transversal (coletados no mesmo intervalo de tempo). ◦ Exemplo: o salário de cada um de 100 indivíduos de um inventário. ◦ O mais comum é que os dados sejam quantitativos (salários são medidos em reais, assim, os dados são números). ◦ Às vezes os dados são qualitativos, mas podem ser convertidos em dados numéricos, referidas como variáveis dummy. • Dados de série temporal. ◦ Comum em macroeconomia e finanças: GDP, preços de ações, taxas de juros, taxa de câmbio, etc. ◦ Os dados são coletados em pontos específicos no tempo (diário, semanal, mensal, ou todo ano). • Dados em Painel: dados com componentes de cross-section e de séries temporais. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 4
  • 5. An´alise de Regress˜ao • Objetivo da modelagem: simplificar o mundo complexo a nossa volta e nos concentrar na essência do problema. • Um modelo não precisa conter todos os detalhes do mundo complexo para ser útil. Podemos quebrar os problemas em pequenas partes para ajudar na compreensão. • Podemos tentar manter constantes algumas das variáveis envolvidas em nosso estudo afim de nos concentrar nas demais. Entretanto, devemos estar atentos aos problemas de variável omitida e causalidade reversa para minorar erros nas nossas conclusões sobre causa e efeito. • Exemplo (causalidade reversa): em cidades com mais policiais há um número maior de crimes. Logo, o policiamento aumenta a violência urbana!? O número de policiais determina a criminalidade ou a criminalidade determina o número de policiais? M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 5
  • 6. An´alise de Regress˜ao • A análise de regressão tem pelo menos 200 anos. • Ela é a técnica de modelagem preditiva mais utilizada por ser simples e efetiva. • Há, no entanto, várias técnicas mais sofisticadas que surgiram desde então. Ainda assim, o estudo das té cnicas que iremos ver neste curso servem como fundação para aplicações mais sofisticadas. • A técnica é utilizada amplamente nas mais diversas áreas. Exemplos: Marketing, Economia, Psicologia, Bioinformática. • Às vezes, é útil transformar ou recodificar os dados para obter um bom modelo. Enfoques condicionais: logaritmo, inversa, potências, etc... M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 6
  • 7. Modelo Cl´assico de Regress˜ao Linear • Vamos apresentar os conceitos básicos sobre estimação e testes de uma regressão usando mínimos quadrados ordinários. • Definimos um modelo de regressão linear simples como a relação entre Y e X dada pela seguinte expressão: Y = β0 + β1X + υ onde: ◦ Y é a variável dependente, variável resposta, ou regressando; ◦ X é a variável independente, variável explicativa, ou regressor; ◦ β0 e β1 são os coeficientes da regressão, os quais são constantes; ◦ υ é o distúrbio estocástico ou termo de erro. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 7
  • 8. Modelo de Regress˜ao Linear • Modelo de Regressão Linear Populacional: • Interpretação dos parâmetros: ◦ β0 (intercepto) ´e o valor da m´edia da distribuic¸ ˜ao de Y em X = 0, nem sempre tem significado pr´atico como um termo separado (isolado) no modelo; ◦ β1 (inclinac¸ ˜ao) expressa a taxa de mudanc¸a em Y , isto ´e, a mudanc¸a em Y quando ocorre a mudanc¸a de uma unidade em X. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 8
  • 9. Modelo de Regress˜ao Linear • Modelo de Regressão Linear Amostral M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 9
  • 10. Motivac¸ ˜ao • Como estimar o impacto de uma variável sobre a outra, o efeito causal, com base em uma amostra de dados aleatória? • Conversa de bar: o governo deve aumentar o número de policiais nas ruas para reduzir a criminalidade ... • Conversa de corredor: se a nossa turma fosse menor, o desempenho da classe seria melhor; • Conversa com os pais: preciso fazer pós-graduação para que o meu salário aumente. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 10
  • 11. Causalidade versus correlac¸ ˜ao • Pesquisadores frequentemente são tentados a inferir uma relação de causa e efeito entre X e Y quando eles ajustam um modelo de regressão ou realizam uma análise de correlação. • Uma associação significativa entre X e Y em ambas as situações não necessariamente implica numa relação de causa e efeito. • Correlação: indica a força e a direção do relacionamento linear entre duas variáveis aleatórias, embora correlação não implique causalidade. • Regressão: é um método para se estimar a média condicional (valor esperado) de uma variável Y , dados os valores de algumas outras variáveis X. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 11
  • 12. Construc¸ ˜ao de Modelos de Regress˜ao • Seleção das variáveis preditoras; • Escolha do Modelo de Regressão; • Abrangência do Modelo. • Obs: O problema, em estudos observacionais, é escolher o conjunto de variáveis que podem ou devem ser incluídas no modelo. • Dificuldades Pr´aticas: ◦ Nem todos os dados de interesse estão disponíveis; ◦ A base de dados pode não ser suficientemente ampla; ◦ Os resultados dificilmente podem ser generalizados; M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 12
  • 13. Modelo Cl´assico de Regress˜ao Linear • 1◦ Passo: Compreender o modelo clássico de regressão linear (MCRL regressão simples); • 2◦ Passo: Limitações do modelo; • 3◦ Passo: Extensão do modelo simples para o modelo de regressão múltipla; • 4◦ Passo: Testes para a verificação dos pressupostos do MMQO. • Análise de regressão é uma metodologia estatística que utiliza a relação entre duas ou mais variáveis quantitativas (ou qualitativas) de tal forma que uma variável pode ser predita a partir da outra ou outras; • Estamos interessados na relação entre duas variáveis, as quais chamaremos de X e Y. Observamos pares de valores X e Y em cada amostra ou unidade experimental, e vamos usá-los para dizer alguma coisa sobre a relação. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 13
  • 14. Modelo de Regress˜ao Linear • Considere o modelo com uma variável preditora, em que a função de regressão é linear. O modelo é dado por: Y = β0 + β1Xi + υi, i = 1, . . . , N. onde: ◦ β0 (intercepto); quando a amostra inclui X = 0, β0 é o valor da média de Y em X = 0, não tem significado prático como um termo separado (isolado) no modelo. ◦ β1 (inclinação): expressa a variação esperada na variável dependente, quando a variável independente varia uma unidade. Ele indica a mudança na média da distribuição de probabilidade de Y por unidade de acréscimo em X. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 14
  • 15. Modelo de Regress˜ao Linear: Exemplo • Observe o modelo teórico para a estimação das quantidades demandadas: Qd = β0 − β1Pi • Nos modelos teóricos, costuma-se atribuir de antemão valores para β0 (intercepto) e β1 (coeficiente angular). • Por exemplo: Qd = 10 − 2Pi M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 15
  • 16. Modelo de Regress˜ao Linear: Exemplo • Com a equação em mãos, basta escolher valores para o preço (variável independente) e descobrir qual será a quantidade demanda para cada nível de preço; • O problema é que, na prática, β0 e β1 são desconhecidos. • Logo, para obter a quantidade demandada para cada nível de preço é preciso estimar uma função de demanda, ou seja, obter estimativas de β0 e β1. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 16
  • 17. O M´etodo dos M´ınimos Quadrados Ordin´arios (MQO) • Uma vez que não é possível saber quais os verdadeiros valores dos β′s, não será possível encontrar a reta de regressão populacional(!) E(Yi/Xi) = β0 + β1Xi • Como proceder? • O objetivo, portanto, é encontrar a reta de regressão que mais se aproxima da reta regressão populacional; ou seja, descobrir a reta que melhor se ajusta aos dados. • Observe, portanto, que o desafio é descobrir quais os estimadores (os betas-chapéu) que mais se aproximam dos verdadeiros valores dos parâmetros populacionais. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 17
  • 18. O M´etodo dos M´ınimos Quadrados Ordin´arios (MQO) • É possível escrever o modelo linear de regressão simples como: Yi = β0 + β1Xi ou Yi = E (Yi/Xi) + υi • Uma vez que E(yi/xi) = β0 + β1xi é uma reta e os β′s são desconhecidos, é possível utilizar a função de regressão amostral e, em seguida, isolar os resíduos, ou seja: Yi = β0 + β1Xi + υi ou υi = Yi − β0 + β1Xi ou ainda υi = Yi − Yi M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 18
  • 19. O M´etodo dos M´ınimos Quadrados Ordin´arios (MQO) • Intuitivamente, o que se busca é a menor distância entre yi e yi, ou seja, a menor diferença entre o valor estimado (previsto) e o valor observado. Em outros termos, o menor valor para a soma dos resíduos. • Para evitar que a soma dos resíduos seja igual a zero, utiliza-se a soma dos quadrados dos resíduos. • O método consiste em minimizar a função dada por: min β0,β1 N i=1 ˆυ2 i = min β0,β1 n i=1 Yi − β0 − β1Xi 2 • Nesse caso, os valores betas-chapéu estimados serão os melhores estimadores lineares, pois minimizam a distância entre o valor positivo e o valor esperado. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 19
  • 20. O M´etodo dos M´ınimos Quadrados Ordin´arios (MQO) • Tomando as derivadas parciais com respeito aos parâmetros e resolvendo as condições de primeira ordem: ˆβ1 = N i=1 (xi − x) (yi − y) N i=1 (xi − x) = N i=1 wi (yi − y) ˆβ0 = y − ˆβ1x onde: wi = (xi − x) N i=1 (xi − x)2 o que mostra que ˆβ1 é uma função linear de y. O mesmo argumento se aplica aos estimadores de OLS de um modelo de regressão múltiplo. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 20
  • 21. Hip´oteses do Modelo de Regress˜ao Linear • H1 (Linearidade dos parâmetros): O modelo de regressão linear populacional é linear nos coeficientes da regressão: Y = β0 + β1X1 + β2X2 + β3X3 + . . . + βkXk + υ. • H2 (Amostragem aleatória): Podemos extrair uma amostra aleatória da população: {(x1i, . . . , xki, yi) , i = 1, . . . , n} • H3 (Média Condicional Zero): Condicional aos regressores, o valor esperado do termo de erro é zero: E (υ|X1, X2, . . . , Xk) = 0 Esta é a hipótese mais importante do modelo de regressão populacional. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 21
  • 22. Hip´oteses do Modelo de Regress˜ao Linear • H4 (Ausência de Colinearidade Perfeita): As variáveis explicativas 1, X1, . . . , XK são linearmente independentes. Logo, Xj, j = 1, . . . , K, não podem ser constantes.        1 X11 X12 . . . XK1 1 X21 X22 . . . XK2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 X1n X2n . . . XKn        n×(K+1) Esta hipótese implica que o posto(X) = K + 1, pois n ≥ K + 1. (Não existe uma relação linear exata entre os regressores. Com multicolinearidade perfeita, o modelo não pode ser estimado por OLS. Um dos regressores precisa ser removido). • H5 (Homocedasticidade): Condicional aos regressores, a variância do termo de erro é constante: var (υ|X1, X2, . . . , Xk) = σ2 υ ou, a variância condicional da variável dependente é constante. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 22
  • 23. Hip´oteses do Modelo de Regress˜ao Linear • H6 (Ausência de Correlação Serial): Ausência de correlação serial significa que os termos de erro não são correlacionados ao longo do tempo: cov (υi, υj|X) = 0, ∀i, j, i = j. Esta hipótese refere-se a um modelo de regressão para o qual os dados são coletados ao longo do tempo. • H7 (Variação Amostral nos Regressores): Todos os regressores devem ter variâncias positivas, isto é, nenhum regressor pode ser constante para todas as observações amostra: var (Xj) > 0, j = 1, 2, . . . , k. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 23
  • 24. O Teorema de Gauss-Markov • Sob (algumas) as hipóteses do modelo clássico de regresão linear, os estimadores ˆβ0, ˆβ1, . . . , ˆβk são os best linear unbiased estimators (BLUE) dos respectivos coeficientes de regressão populacional (β0, β1, . . . , βk). • Linear: O estimador ˆβ é uma função linear das variáveis dependentes. Vamos trabalhar com ˆβ1: ˆβ1 = N i=1 (xi − x) (yi − y) N i=1 (xi − x) = N i=1 wi (yi − y) onde: wi = (xi − x) N i=1 (xi − x)2 o que mostra que ˆβ1 é uma função linear de y. O mesmo argumento se aplica aos estimadores de OLS de um modelo de regressão múltiplo. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 24
  • 25. O Teorema de Gauss-Markov • Unbiased: O valor esperado do estimador de OLS ˆβ é o correspondente coeficiente da regressão populacional: E ˆβj = βj, j = 1, 2, . . . , k. mesmo na presença de heterocedasticidade e correlação serial, os estimadores de OLS ainda são não-viesados. • Significa que se pegarmos um número de amostras e estimarmos os parâmetros populacionais com estas amostras, o valor médio das estimativas será igual ao valor populacional quando o números de amostras tender a infinito. E β0 = β0, E β1 = β1. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 25
  • 26. O Teorema de Gauss-Markov • Best: Significa que que a variância do estimador de OLS ˆβ é a menor dentre quaisquer outros estimadores lineares não-viesados: var ˆβj ≤ var ˜βj , j = 1, 2, . . . , k. esta propriedade é conhecida como propriedade da eficiência. Todas as hipóteses enunciadas são necessárias para a validade desta propriedade. • Eficiência dos estimadores não viesados: o estimador é eficiente e nenhum outro estimador linear não viesado tem maior precisão (menor variância) . Requer que a variância seja homocedástica e não autocorrelacionada ao longo do tempo. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 26
  • 27. Propriedade dos Estimadores de M´ınimos Quadrados • Consistência: Significa que quando o tamanho da amostra cresce, tende a infinito, a variância dos parâmetros deve convergir para zero e os parâmetros convergem para os parâmetros populacionais. ◦ Um estimador pode ser viesado e ainda assim consistente, mas não é possível um estimador ser não viesado e inconsistente. • Parâmetros normalmente distribuídos: Uma vez que os parâmetros são médias ponderadas das variáveis dependentes, eles podem ser tratados como uma média. ◦ De acordo com o teorema do limite central, a média é normalmente distribuída. ◦ Consequentemente, os estimadores de OLS são normalmente distribuídos em amostras suficientemente grandes. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 27
  • 28. R-quadrado e R2 -ajustado • Uma medida da qualidade de ajuste - quão bem o modelo ajustado explica a variabilidade de Y - é fornecida pelo R-quadrado da regressão, o qual é conhecido como coeficiente de determinac¸ ˜ao. • O coeficiente de determinação busca decompor o desvio em torno da média em uma parte explicada e outra parte inexplicada: Yi − Y = Yi − Y + Yi − ˆYi + Yi − Y Explicado + Yi − ˆYi Não-Explicado υi • Assim, definimos a seguinte partição da soma de quadrados total. • Soma dos Quadrados dos Total: SST = n i=1 Yi − Y 2 que é a variação total amostral na variável dependente y com respeito à sua média amostral. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 28
  • 29. R-quadrado e R-quadrado ajustado • Soma dos Quadrados da Explicada: SSE = n i=1 Yi − Y i 2 que é a variação total amostral nos valores ajustados y com respeito à sua média amostral. • Soma dos Quadrados dos Resíduos: SSR = n i=1 Yi − Yi 2 = n i=1 υ2 i que é a variação amostral nos resíduos υ com respeito à sua média amostral, a qual é igual a zero. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 29
  • 30. R-quadrado e R-quadrado ajustado • Isso prova que a variação total pode ser decomposta em variação explicada e variação inexplicada: SST = SSE + SSR • Com base nesta relação, o R-quadrado é definido como a razão: R2 = SSE SST = 1 − SSR SST a qual é a proporção da variação amostral da variável dependente explicada pelo (s) regressor (es). • Coeficiente de determinac¸ ˜ao: é uma medida de aderência da regressão, que mede o sucesso dentro da amostra do modelo de regressão: 0 ≤ R2 ≤ 1. É também interpretado como a proporção da variância da variável dependente que é explicada pelas variáveis explanatórias. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 30
  • 31. O Coeficiente de determinac¸ ˜ao ajustado - R 2 • Um problema com o R2 é que qualquer variável adicionada ao modelo, por menor que seja o seu poder de explicação, gera um crescimento no R2 normal. • Logo, o R2-ajustado busca penalizar a estatística pelo acréscimo de variáveis irrelevantes. • O R 2 tem a mesma interpretação que o R2. A diferença é que o R 2 é corrigido pelo número de graus de liberdade: R 2 = 1 − SSR/(n − k − 1) SST(n − 1) = 1 − 1 − R2 n − k n − k − 1 . • Comparando ambos os R-quadrados, podemos ver que: R 2 ≤ R2 . M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 31
  • 32. Exerc´ıcio: MCRL • Utilizando o banco de dados mroz (contido no xlsx) faça uma regressão via mínimos quadrados ordinários do log do salário (lwage) sobre uma constante, edução (educ), experiência (exper) e experiência ao quadrado (expersq). Interprete os resultados dos coefficientes (Como eles foram calculados? E os erros-padrão? E R2?) lwage = β0 + β1educ + β2exper + β3exper 2 • Faça as questões da lista de exercícios. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 32
  • 33. Escolhendo a forma funcional: n˜ao-linearidades • É possível incorporar algumas não-linearidades em um modelo de regressão redefinindo os regressores e/ou a variável dependente. Suponha que façamos W = X2, então Y = β0 + β1X + β2X2 pode ser escrito como Y = β0 + β1X + β2W + υ. O qual é uma função linear de W e pode ser estimado por OLS. • Outras especificações não-lineares tais como a log − log, ou semilog também são modelos considerados. • Por exemplo, em: log Y = β0 + β1 log X + υ. qual é a resposta de Y a uma mudança marginal em X? M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 33
  • 34. Por que usar o log natural? • Taxa de Crescimento: A primeira-diferença do logaritmo de Y é aproximadamente igual a taxa de crescimento de Y . log yt − log yt−1 ∼= y1 − yt−1 yt−1 • Em termos percentuais, %∆yt ∼= 100 ∗ ∆ log yt = 100 ∗ (log yt − log yt−1) M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 34
  • 35. Por que usar o log natural? • O logaritmo natural como expressão da elasticidade: log(Yt) = α + β log(Xt) log(Yt) = β∆ log(Xt) ∆ log(Yt) ∆ log(Xt) = β • Mas: ∆ log(Yt) = log(Yt) − log(Yt−1) = log Yt Yt−1 ≈ Yt − Yt−1 Yt−1 • Então: ∆ log(Yt) ∆ log(Xt) = [(Yt − Yt−1)/Yt−1] [(Xt − Xt−1/Xt−1] M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 35
  • 36. Escolhendo a forma funcional: n˜ao-linearidades • Sabendo a derivada do log: d log Y = dY/Y . Assim: d log Y d log X = ∆Y/Y ∆X/X = β1 o que significa que uma variação de 1% em X (i.e., ∆X/X) se traduz em uma variação em Y igual a β1 (∆Y/Y = β1∆X/X). • Os coeficientes do modelo log − log são expressos como elasticidades. • Lembre-se que a elasticidade é expressa em porcentagem e não na forma decimal, portanto, não deve ser multiplicada por 100. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 36
  • 37. Escolhendo a forma funcional: log-linear • Da mesma forma, se o modelo é log Y = β0 + β1X + υ, então d log Y dX = ∆Y/Y ∆X = β1 Note que agora não trabalhamos com variação percentual em X, mas sim uma variação marginal. • Em outras palavras, se X aumentar uma unidade, a mudança em Y será de (β1 × 100)%. • Essa especificação log-linear é amplamente usada na literatura sobre capital humano. Para calcular a taxa de retorno de um ano a mais de educação, por exemplo. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 37
  • 38. Escolhendo a forma funcional: linear-log • Finalmente, se o modelo é Y = β0 + β1 log X + υ, então: dY d log X = ∆Y ∆X/X = β1, o que significa que uma variação de 1% em X implica em uma variação em Y de β1 unidades. • Note que em todas as especificações os coeficientes das regressões, β′s, são lineares. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 38
  • 39. Vari´aveis Dummy • Até agora, todas as variáveis foram assumidas como sendo de natureza quantitativa. • No entanto, muitas variáveis interessantes são expressas em termos qualitativos, como sexo, escolaridade, períodos de tempo e as estações, privado ou público e assim por diante. • Estas medidas qualitativas tem que ser transformadas em alguma proxy, de modo que possam ser representadam e utilizadas em uma regressão. • Variáveis binárias (dummies) são transformações discretas e usadas para esta finalidade. • Uma variável dummy para os homens poderiam, portanto, ser expressa da seguinte forma: D =    1 se um homem 0 caso contrário (mulher) M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 39
  • 40. Vari´aveis Dummy de Intercepto • A forma mais básica de aplicação de variáveis dummy é quando apenas o intercepto é afetado: Y = β0 + β1X + β2D + υ. • Se tormamos a esperança condicional em relação às duas categorias de D que obtemos: E[Y |D = 1, X] = β0 + β2 + β1X E[Y |D = 0, X] = β0 + β1X • A única coisa que difere entre as duas médias condicionais é o coeficiente da variável dummy. • Suponha o seguinte resultado de um modelo de regressão com Y sendo a taxa de salário hora, D uma dummy para os homens, e X uma variável para anos de escolaridade.Os erros padrão são dados entre parênteses: Y = 55.9 8.16 + 21.9 4.30 D + 2.4 0.63 X M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 40
  • 41. Vari´aveis Dummy de Intercepto • Use os resultados da regressão para calcular quanto maior é a taxa média de salário por hora para homens. Primeiro temos que verificar se o coeficiente para a dummy para o sexo masculino é significativa. • Na literatura empírica sobre capital humano a forma funcional mais utilizada é a log-linear: ln Y = 4.02 0.03 + 0.18 0.02 D + 0.03 0.01 X Efeito Marginal: eβ1 − 1 = e0.18 − 1 = 0.197. • Ou seja, os homens ganham, em média, 19.7 por cento a mais por hora do que as mulheres, o controlando para a educação. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 41
  • 42. Vari´aveis Dummy de Inclinac¸ ˜ao • Se voltarmos ao modelo de capital humano, é possível argumentar que a diferença de salário entre homens e mulheres pode ser devido a diferenças no seu retorno à educação. Y = β0 + (β1 + β2D)X + υ = β0 + β1X + β2(DX) + υ • Assim, uma maneira de testar se o retorno à educação é diferente entre homens e mulheres seria testar se β2 é diferente de zero, o que deve ser testado antes de testar se β1 + β2 é diferente de zero. • Usando o mesmo conjunto de dados do Exemplo acima. Os resultados são apresentados a seguir com os erros padrão entre parêntesis: ln Y = 4.11 0.031 + 0.024 0.003 X + 0.014 0.001 DX • Para investigar se há uma diferença no retorno da educação entre homens e mulheres basta testar o coeficiente estimado para o produto cruzado. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 42
  • 43. Vari´aveis qualitativas com v´arias categorias • Isso exige uma variável qualitativa com mais de duas categorias. Por exemplo: D =    0 escola primária 1 escola secundária 2 ensino superior • Para incluir D diretamente em um modelo de regressão tem que ter certeza de que o efeito de ir do ensino primário para o ensino secundário na taxa de salário por hora é do mesmo tamanho do efeito da passagem do ensino secundário para o ensino pós-secundário. • Se este não for o caso, temos de permitir diferenças nestes dois efeitos. Existem pelo menos duas abordagens a este problema. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 43
  • 44. Vari´aveis qualitativas com v´arias categorias • A primeira e mais básica abordagem é criar três variáveis binárias; uma para cada nível de ensino, da seguinte forma: D1 =    0 escola primária 1 caso contrário D2 =    0 escola secundária 1 caso contrário D3 =    0 ensino superior 1 caso contrário • Podemos agora tratar D1, D2 e D3 como três variáveis explicativas, e incluí-las no modelo de regressão. • No entanto, é importante evitar a chamado armadilha variável binária (dummy). M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 44
  • 45. Vari´aveis qualitativas com v´arias categorias • A armadilha da variável dummy aparece quando o analista tenta especificar e estimar o seguinte modelo: ln Y = β0 + β1D1 + β2D32 + β3D3 + β4X + υ. • É matematicamente impossível estimar os parâmetros, pois não há variação na soma das três variáveis dummy, uma vez que D1 + D2 + D3 = 1 para todas as observações no conjunto de dados. • A maneira mais fácil de resolver isso é para excluir uma delas e tratar a categoria que foi excluída como uma categoria de referência. ln Y = β0 + β2D2 + β3D3 + β4X + υ. • Isto é, se D1 é excluída, as outras categorias terão D1 como referência. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 45
  • 46. Vari´aveis qualitativas com v´arias categorias • β2, portanto, é interpretado como o efeito no salário de ir do ensino primário para o ensino secundário, e β3 irá representar o efeito no salário de ir do ensino primário para escolaridade superior. • Uma alternativa a excluir uma das categorias é de excluir o termo constante, o que nos daria o modelo: ln Y = β† 1D1 + β† 2D2 + β† 3D3 + β4X + υ. • Neste caso as três variáveis dummy irão funcionar como três interceptos neste modelo; um para cada nível de ensino. Os coeficientes não podem ser interpretadas como mudanças relativas a este caso. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 46
  • 47. Vari´aveis qualitativas com v´arias categorias • Comparar e interpretar os resultados: Especificação I: ln Y = 3.29 0.043 + 0.154 0.024 D2 + 0.295 0.022 D3 + 0.009 0.001 X Especificação II: ln Y = 3.29 0.043 D1 + 4.083 0.034 D2 + 4.224 0.036 D3 + 0.009 0.001 X. onde as três variáveis dummies representam três níveis de ensino, e X representa a idade do indivíduo. • A primeira coisa a notar é que β0 = β† 1, β0 + β2 = β† 2 e β0 + β2 + β3 = β† 3. Assim, as duas especificações estão muito relacionados. • Além disso β† 2 − β† 1 = β2 e β† 3 − β† 1 = β3. M´etodos Quantitativos para Financ¸as e EconomiaAn´alise de Regress˜ao – p. 47