Cadeira_Econometria_2.pdf

Econometria 2
Renan Oliveira Regis
UNEMAT
Renan Oliveira Regis Econometria 2 1 / 150

Sumário
Sumário
1 Ementa da disciplina
2 Métodos de MQO e aplicação em R
3 agrupamento de cortes transversais ao longo do tempo: métodos simples de
dados em painel
4 Métodos avançados de dados em painel

Ementa da disciplina
dados em painel

Ementa da disciplina
Temas abordados
Introdução à econometria: uma abordagem moderna – Tradução da 6ª
edição norte-americana
Jeffrey M. Wooldridge
▶ Cap 13: agrupamento de cortes transversais ao longo do tempo: métodos
simples de dados em painel.
▶ Cap 14: métodos avançados de dados em painel.
▶ Cap 15: estimação de variáveis instrumentais e mínimos quadrados em dois
estágios.
▶ Cap 16: modelos de equações simultâneas.
▶ Cap 17: modelos com variáveis dependentes limitadas e correções da seleção
amostral
Avaliação econômica de projetos sociais / Betânia Menezes Filho]. – São
Paulo : Fundação Itaú Social, 2016.
▶ Avaliação de Impacto de Programas Sociais.Por que, para que e quando fazer?
▶ Modelo de Resultados Potenciais.
▶ Método de Aleatorização.
▶ Diferenças em Diferenças.
▶ Variáveis Instrumentais.
▶ Regressão Descontínua.

Métodos de MQO e aplicação em R
dados em painel

Modelo de regressão Múltipla
Y = β0 + β1X1 + β2X2 + ... + βk Xk + e
Ou, forma Por que, para que e quando fazer?Por que, para que e quando fazer?
Modelo de Resultados Potenciais.
Método de Aleatorização.
Diferenças em Diferenças.
Pareamento.
Variáveis Instrumentais.
Regressão Descontínua.
O Cálculo do Retorno Econômico.matricial
y = Xβ + e
y =





y1
y2
. . .
yn





; X =





1 x11 x12 x13 . . . x1k
1 x21 x22 x23 . . . x2k
. . . . . . . . . . . . . . . . . . . . . .
1 xn1 xn2 xn3 . . . xnk





; β =





β0
β1
. . .
βk





;e =





e1
e2
. . .
en





.

Modelo de regressão Múltipla (Forma Matricial)
y = Xβ + e





y1
y2
. . .
yn





=





1 x11 x12 x13 . . . x1k
1 x21 x22 x23 . . . x2k
. . . . . . . . . . . . . . . . . . . . . .
1 xn1 xn2 xn3 . . . xnk










β0
β1
. . .
βk





+





e1
e2
. . .
en






Derivação das estimativas de mínimos quadrados ordinários

Agora, suponha que escolhamos β̂0 e β̂1 com a finalidade de fazer a soma dos
quadrados dos resíduos,
n
X
i=1
û2
i =
n
X
i
(yi − β̂0 − β̂1xi )2
tão pequena quanto possível. Ou Seja:
MIM ˆ
β0, ˆ
β1
n
X
i
(yi − β̂0 − β̂1xi )2
Já para k variáveis teremos:
n
X
i=1
û2
i =
n
X
i
(yi − β̂0 − β̂1xi1 − .. − β̂k xik )2

Solução
β̂j =
Pn
i=1(xi − x̄)(yi − ȳ)
Pn
i=1(xi − x̄)2
OU
β̂j =
cov(x, y)
var(x)
Ou em forma matricial
β̂ = (X
′
X)−1
X
′
y

Hipoteses

Aplicação
wage = β0 +β1educ +β2exper +β3tenure +β4nonwhite +β5female +β6married+
β7numdep + e
Variável Descrição
wage salário médio por hora
educ anos de educação
exper anos de experiência
tenure anos de experiência com o empregador atual
nonwhite = 1 se não branco
female = 1 se for feminino
married = 1 se casado
numdep número de dependentes

Aplicação
Precisamos informa ao R onde os dados se encontram:
Utilize a função setwd() e especifique o diretório dentro da função.
OBS: Lembrar da barra dupla.
Inserindo os dados no R
dados = read.table("data.txt", header = T)
Talvez seus dados precise do "sep"
Anexado o banco de dados para que eu possa chamar as colunas pelos seus
nomes.
attach(dados)

Estatística descritiva
max()
min()
mean()
sd()
Variável Máximo Mínimo Média Desvio Padrão
wage 24,98 0,53 8,89 3,69
educ 18 0 12,56 2,76
expec 51 1 17,01 13,57
tenure 44 0 5,10 7,22
numped 6 0 1,04 1,26

table()
Frequência
Variável 0 1
nonwhite 472 54
female 274 252
married 206 320

Verificar se existe multicolinearidade entre as variáveis. (relação linear quase
exata)
x=cbind(educ,exper,tenure,numdep)
cor(x)
OBS: análisar a alta correlação entre exper e tenure.
educ exper tenure numdep
educ 1 -0,29 -0,05 -0,21
exper -0,29 1 0,49 -0,05
tenure -0,05 0,49 1 -0,02
numdep -0,21 -0,05 -0,02 1

Modelo Completo

Teste de Normalidade: Jarque-Bera
O teste de normalidade Jarque-Bera serve para identificar se os resíduos são
normalmente distribuídos, esse teste é assintótico e quanto maior o tamanho
da amostra mais confiável se torna.
O objetivo desse teste é verificar se existe normalidade por meio do cálculo da
assimetria e curtose dos resíduos que foram obtidos através do método de
mínimos quadrados ordinários (MQO) (GUJARATI, 2011).
A fórmula usada no teste:
JB = T

S2
6
+
(c − 3)2
24

onde T é o tamanho da amostra, S e C são os coeficientes de assimetria e
curtose, respectivamente.
Esse teste leva em consideração a hipótese conjunta de que os resíduos são
pertencentes a uma distribuição normal cujo os coeficientes S e C são iguais
a 0 e 3 respectivamente.

Teste de Normalidade: Jarque-Bera
Portanto para obter o resultado que os resíduos tem distribuição normal, a
estatística de Jarque-Bera terá que ter valor igual a zero. A hipótese nula
deste teste é que os resíduos seguem a distribuição normal (GUJARATI,
2011).

Variâncias Homocedásticos e Heterocedásticos: Teste de
Konker
A princípio é investigado a ocorrência de heterocedasticidades para os
modelos de regressão linear.
Na Figura, encontram-se os resultados do teste de homocedasticidade de
Breusch e Pagan (1979) para os modelos estimados pela metodologia de
MQO.
O teste de homocedasticidade está sendo exposto com o intuito de verificar
se as variâncias são constantes.
O teste de Breusch Pagan não necessita da hipótese de normalidade e é mais
poderoso do que o teste de Koenker e Bassett (1978) sobre normalidade.
Hipótese nula é de homocedasticidade

Correção da heterocedasticidade
Os dados são heterocedastico.
teste de hipótese e intervalo de confiança não são mais válidos.
Precisamos de um estimador para teste de hpótese e intervalo de confiança.
temos os HC0 (White), HC1 (Hinkely), HC2 (Horn, Horn e Duncan), HC3
(Davidson e Mackninnon) e HC4 (Cribari-Neto (2004)).
HC2, HC3 e HC4 executam o teste quasi-t e isso significa que são válidos
sobre não normalidade.
▶ Cribari-Neto, F., Soares, A. C. N. (2003). Inferência em modelos
heterocedásticos. Revista Brasileira de Economia, 57, 319-335.

Resultado com HC4

Modelo completo: Salário em log

Normalidade e homocedasticidade

Ressultado com HC4

Selecionando o modelo

modelo com tenure e sem exper

modelo sem tenure e com exper (modelo escolhido)

Conclusões do modelo final
R2
= 0, 36.
Sinal de Educação positivo.
Sinal de experiência positivo.
Sinal para casados positivo.
Sinal para mulheres negativo.

dados em painel
dados em painel

dados em painel
Introdução
conjuntos de dados que possuem as duas dimensões, corte transversal e séries
temporais, estão sendo usados cada vez mais na pesquisa empírica.
Um agrupamento independente de cortes transversais é obtido fazendo-se
uma amostragem aleatória de dados de uma população grande, em diferentes
períodos de tempo (em geral, mas não necessariamente em anos diferentes).
▶ Por exemplo, de cada ano, podemos extrair uma amostra aleatória de salários
por hora, educação, experiência etc., da população de trabalhadores nos
Estados Unidos.
Do ponto de vista estatístico, esses conjuntos de dados possuem uma
importante caracte-rística: consistem de observações amostrais coletadas
independentemente.

dados em painel
Introdução
Um agrupamento independente de cortes transversais difere de uma amostra
aleatória única pelo fato de que fazer amostragem de uma população em
períodos de tempo diferentes provavelmente levará a observações que não são
distribuídas de maneira idêntica.
▶ Por exemplo, distribuições de salários e educação vêm mudando ao longo do
tempo, na maioria dos países.

dados em painel
Introdução
Um conjunto de dados em painel, embora tenha dimensões tanto de corte
transversal como de série temporal, difere em alguns aspectos importantes de
um agrupamento independente de cortes transversais.
Para coletar dados em painel – algumas vezes chamados de dados
longitudinais –, nós acompanhamos (ou tentamos acompanhar) os mesmos
indivíduos, famílias, empresas, cidades, estados, ou o que seja, ao longo do
tempo.
▶ Por exemplo, um conjunto de dados em painel sobre salários individuais, horas,
educação e outros fatores é coletado fazendo-se uma seleção aleatória de
pessoas de uma população em determinado momento.
▶ Depois, essas mesmas pessoas são entrevistadas em vários períodos de tempo
subsequentes.
Isso nos fornecerá dados sobre salários, horas, educação etc. do mesmo grupo
de pessoas em anos diferentes.

dados em painel
Introdução
Na análise econométrica de dados em painel, não podemos supor que as
observações sejam independentemente distribuídas ao longo do tempo.
▶ Por exemplo, fatores não observados (como a aptidão) que afetaram o
salário-hora de um indivíduo em 1990 também afetarão seu salário em 1991;
▶ fatores não observados que afetaram a taxa de criminalidade de uma cidade
em 1985 também afetarão sua taxa de criminalidade em 1990.
Por essa razão, modelos e métodos especiais foram desenvolvidos para
analisar dados em painel.

dados em painel
Agrupamento independente de cortes transversais ao longo
do tempo
Se uma amostra aleatória for extraída a cada período de tempo, o
agrupamento das amostras aleatórias resultantes produz um agrupamento
independente de cortes transversais.
Uma razão para usar agrupamentos independentes de cortes transversais é
aumentar o tamanho da amostra.
Ao agrupar amostras aleatórias extraídas da mesma população, mas em
períodos de tempo diferentes, podemos obter estimadores mais precisos e
estatísticas de testes mais poderosas.
O agrupamento é útil nesse caso somente se a relação entre a variável
dependente e pelo menos uma das variáveis independentes permanecer
constante ao longo do tempo.

dados em painel
do tempo
Em geral, para refletir o fato de que a população pode ter distribuições
diferentes em períodos de tempo diferentes, permitimos que o intercepto
difira ao longo dos períodos, normalmente anos.
Isso é facilmente conseguido com a inclusão de variáveis dummy para todos
os anos menos um, em que o primeiro ano da amostra é habitualmente
escolhido como o ano-base.
Também é possível que a variância do erro mude ao longo do tempo, assunto
que discutiremos mais tarde.

dados em painel
do tempo
Algumas vezes, o padrão dos coeficientes das variáveis dummy anuais é de
interesse particular.
▶ Por exemplo, um demógrafo pode estar interessado na seguinte questão:
depois de ter controlado a variável educação, o padrão de fertilidade entre
mulheres com mais de 35 anos mudou entre 1972 e 1984?
O seguinte exemplo ilustra como essa questão pode ser respondida de maneira
simples, com o uso da análise de regressão múltipla com variáveis dummy
anuais.

dados em painel
Fertilidade feminina ao longo do tempo
Os dados provém do General Social Survey (Pesquisa Social Geral) do
National Opinion Research Center (Centro de Pesquisa de Opinião Nacional)
para os anos de 1972 a 1984, inclusive.
Usamos esses dados para estimar um modelo que explique o número total de
nascimentos por mulheres (kids).
o que aconteceu com as taxas de fertilidade ao longo do tempo?
Os fatores que controlamos são anos de educação, idade, raça, região do país
onde as mulheres residiam quando tinham 16 anos e ambiente em que viviam
quando tinham essa mesma idade.
O ano-base é 1972.

dados em painel
Fertilidade feminina ao longo do tempo

dados em painel
Aplicação no R
Rstudio
Data1

dados em painel
Fertilidade feminina ao longo do tempo: Conclusões
Os coeficientes das variáveis dummy anuais mostram uma nítida queda da
fertilidade no início dos anos 1980.
▶ Por exemplo, o coeficiente de y82 indica que mantendo fixos educação (educ),
idade (age) e outros fatores, uma mulher teve, em média, 0,52 menos filhos
em 1982 do que em 1972.
▶ Isso é uma queda bastante grande: mantendo fixos educ, age e os outros
fatores, prevê-se que 100 mulheres em 1982 teriam 52 crianças a menos se
comparadas com 100 mulheres em 1972.
Os coeficientes de y82 e y84 representam queda na fertilidade por razões que
não estão captadas nas variáveis explicativas.
R2
= 0, 12 com as dummys e R2
= 0, 10 se retirar as dummys.
Educ com sinal negativo.
O modelo estimado presume que o efeito de cada variável explicativa,
particularmente a da educação, permaneceu constante. Isso pode ou não ser
verdade;

dados em painel
do tempo
Podemos também interagir uma variável dummy anual com variáveis
explicativas básicas para verificar se o efeito dessa variável mudou ao longo
de certo período de tempo.
O próximo exemplo examina como o retorno da educação e a diferença
salarial por gênero mudaram de 1978 a 1985.

dados em painel
Mudanças no retorno da educação e a diferença salarial
por gênero

dados em painel
por gênero
O intercepto de 1978 é β0, e o intercepto de 1985 é β0 + δ0.
O retorno da educação em 1978 é β1, e o retorno da educação em 1985 é
β1 + δ1.
▶ Portanto, δ1 mede como o retorno de mais um ano de estudo mudou ao longo
do período de sete anos.
Finalmente, em 1978 o diferencial log(wage) entre homens e mulheres é β5;
o diferencial em 1985 é β5 + δ5.
Assim, podemos testar a hipótese nula de que nada aconteceu com o
diferencial por gênero ao longo desse período de sete anos, fazendo o teste
H0 : δ5 = 0.
A hipótese alternativa de que o diferencial por gênero tenha sido reduzido é
H1 : δ5 0.
Para simplificar, presumimos que a experiência e a filiação sindical têm o
mesmo efeito sobre os salários em ambos os períodos de tempo.

dados em painel
por gênero

dados em painel
do tempo
O que acontece se fizermos a interação de todas as variáveis independentes
com y85 na equação (13.2)?
Seria o mesmo que estimarmos duas equações separadas, uma para 1978 e
outra para 1985.
Algumas vezes, isso é preferível.

dados em painel
análise de decisão de políticas com agrupamentos de cortes
transversais
Cortes transversais agrupados podem ser muito úteis para a avaliação do
impacto de determinado evento ou decisão política.
O exemplo seguinte de um estudo de evento mostra como dois conjuntos de
dados de cortes transversais, coletados antes e depois da ocorrência de um
evento, podem ser usados para determinar seu efeito sobre resultados
econômicos.

dados em painel
Efeito da localização de um incinerador de lixo sobre os
preços de imóveis
Kiel e McClain (1995) estudaram o efeito que um novo incinerador de lixo
teve sobre os valores dos imóveis em North Andover, Massachusetts.
Utilizaremos dados de dois anos e alguns modelos simplificados, mas nossa
análise é semelhante à deles.
Utilizaremos dados de preços dos imóveis vendidos em 1978 e outra amostra
dos vendidos em 1981.
A hipótese é que os preços dos imóveis localizados próximos do incinerador
cairiam em relação aos preços dos imóveis mais distantes.

dados em painel
preços de imóveis

dados em painel
preços de imóveis
Como essa é uma regressão simples sobre uma única variável dummy, o
intercepto é a média dos preços de venda dos imóveis afastados do
incinerador, enquanto o coeficiente de nearinc é a diferença no preço médio de
venda entre os imóveis situados próximos ao incinerador e os distantes dele.
A estimativa mostra que o preço médio de venda dos imóveis para o primeiro
grupo era de 30.688,27 dólares a menos que o do segundo grupo.

dados em painel
preços de imóveis

dados em painel
preços de imóveis
Como, então, podemos dizer se a construção de um novo incinerador reduz
os valores dos imóveis?
▶ O segredo está em verificar como o coeficiente de nearinc mudou entre 1978 e
1981.

dados em painel
preços de imóveis

dados em painel
preços de imóveis
O parâmetro de interesse está no termo de interação y81×nearinc: δ1 mede o
declínio nos valores dos imóveis em razão do novo incinerador.

dados em painel
preços de imóveis

dados em painel
preços de imóveis
Além das variáveis de idade na coluna (2), a coluna (3) controla a distância
até a rodovia interestadual (intst), a área do terreno (land), a área construída
(area), o nú-mero de quartos (rooms) e o número de banheiros (baths).
Isso produz uma estimativa de y81×nearinc mais próxima daquela sem
nenhum controle, mas produz um erro padrão muito menor.
torna δ1 mais significativa.

dados em painel
preços de imóveis (log do preço)
OBS: O Livro errou no resultado e o correto é 0,063, ou seja, uma redução de
6, 3%

dados em painel
Aplicação no R
Ver no Rstudio (data2)

dados em painel
Diferrenças em diferrenças (Diff-Diif)
A metodologia utilizada no exemplo anterior tem inúmeras aplicações,
especialmente quando os dados são provenientes de um experimento natural
(ou quase experimento).
▶ Um experimento natural ocorre quando algum evento exógeno —
frequentemente uma mudança na política governamental — altera o ambiente
no qual indivíduos, famílias, empresas ou cidades operam.
▶ Um experimento natural sempre tem um grupo de controle, que não é afetado
pela mudança na política, e um grupo de tratamento, que é afetado pela
mudança na política.

dados em painel
Para controlar diferenças sistemáticas entre os grupos de controle e de
tratamento, necessitamos de dois anos de dados, um anterior à mudança na
política e outro após a mudança.
Assim, nossa amostra será convenientemente dividida em quatro grupos:
1 o grupo de controle antes da mudança,
2 o grupo de controle após a mudança,
3 o grupo de tratamento antes da mudança
4 e o grupo de tratamento após a mudança.

dados em painel

dados em painel
Diferrenças em diferrenças (Diff-Diif):efeito médio de
tratamento
(1) calculando as di-ferenças nas médias entre os grupos de tratamento e de
controle em cada período de tempo e depois tirando a primeira diferença dos
resultados ao longo do tempo;
Ou Rearranjando:
(2) calculando a alteração nas médias ao longo do tempo de cada um dos grupos
de tratamento e controle, e então tirando a primeira diferença dessas alterações, o
que significa que simplesmente escrevemos

dados em painel

dados em painel
Efeitos das leis de indenizações trabalhistas sobre os prazos
de afastamento dos trabalhadores
Em 15 de julho de 1980, o estado norte-americano de Kentucky aumentou o
limite dos ganhos semanais que eram cobertos por essa remuneração
(indenização por acidente).
Um aumento no limite não tem efeito sobre os benefícios para os
trabalhadores de baixa renda, mas torna menos oneroso para um trabalhador
de alta renda permanecer afastado recebendo indenização trabalhista.
▶ Portanto, o grupo de controle é o dos trabalhadores de baixa renda,
▶ e o grupo de tratamento é o dos trabalhadores de alta renda;
trabalhadores de alta renda são definidos como os que estavam posicionados no
teto antes da mudança na política do governo.
▶ Usando amostras aleatórias, tanto do período anterior como do período
posterior à mudança.

dados em painel
Objetivo
▶ Testar se uma remuneração mais generosa faria com que os trabalhadores
ficassem mais tempo sem trabalhar (tudo mais mantido inalterado).
usando log(durat) como a variável dependente.
Façamos afchnge representar uma variável dummy das observações após a
mudança da política
e highearn, a variável dos trabalhadores de altos rendimentos.

dados em painel

dados em painel
Análise de dados em painel de dois períodos
Retornamos agora à análise do tipo mais simples de dados em painel:
para um corte transversal de indivíduos, escolas, empresas, cidades, ou o que
seja, temos dados de dois anos; vamos chamá-los de t = 1 e t = 2.
▶ Por exemplo, taxas de criminalidade e de desemprego de 46 cidades em 1982 e
1987. Portanto, t = 1 corresponde a 1982 e t = 2, a 1987.

dados em painel
O que acontece se usarmos o corte transversal de 1987 e executarmos uma
regressão simples de crmrte sobre unem? Obteremos
Se interpretarmos de forma causal, a equação estimada implica aumento na
taxa de desemprego que reduz a taxa de criminalidade.
Com certeza, isso não é o que esperávamos. O coeficiente de unem não é
estatisticamente significante aos níveis padrão de significância.
na melhor das hipóteses, não encontramos ligação entre as taxas de
criminalidade e desemprego.

dados em painel
Como temos enfatizado ao longo deste texto, essa equação de regressão
simples possivelmente sofre do problema de variáveis omitidas.
Um modo alternativo de usar dados em painel é separar os fatores não
observados que afetam a variável dependente em dois tipos: os que são
constantes e os que variam ao longo do tempo.
▶ Fazendo i representar a unidade de corte transversal e t o período de tempo,
podemos escrever um modelo com uma única variável explicativa observada
como:
Na notação yit, i é a pessoa, empresa, cidade etc., e t é o período de tempo.
A variável d2t é uma variável dummy igual a zero quando t = 1 e igual a um
quando t = 2;
A variável ai capta todos os fatores não observados, constantes no tempo,
que afetam yit( (O fato de ai não ter um subscrito t nos diz que ele não
muda ao longo do tempo.).

dados em painel
Análise de dados em painel de dois períodos (ai)
De forma genérica, ai é chamado de efeito não observado.
▶ Também é comum no trabalho aplicado encontrar ai referido como efeito fixo,
o que nos ajuda a lembrar que ai é fixo ao longo do tempo.
▶ O modelo é chamado de modelo de efeitos não observados ou modelo de
efeitos fixos.
▶ Em aplicações, pode-se encontrar também ai referido como heterogeneidade
não observada (ou heterogeneidade do indivíduo, heterogeneidade da empresa,
heterogeneidade da cidade etc.).
O erro uit muitas vezes é chamado de erro idiossincrático ou erro de variação
temporal, porque ele representa fatores não observados que mudam ao longo
do tempo e afetam yit.
▶ Eles são muito parecidos com os erros em uma equação de regressão de série
temporal.

dados em painel

dados em painel
Como devemos estimar o parâmetro de interesse, β1, a partir de dois anos de
dados em painel?
Teremos de presumir o efeito não observado, ai , como não correlacionado
com xit.
O problema é que ai pode está correlacionado com xit e teremos estimativas
viesadas.
Embora o sinal do coeficiente de unem está correto, apresenta ser não
significativa.

dados em painel
Na maioria das aplicações, a principal razão para coletar dados em painel é
considerar que o efeito não observado, ai , é correlacionado com as variáveis
explicativas.
Isso acaba sendo fácil de fazer: como ai é constante ao longo do tempo,
podemos diferenciar os dados no decorrer dos dois anos.

dados em painel
A equação, que chamamos de equação de primeiras diferenças, é muito simples.
O MQO em equações de diferença é chamado de estimador de primeira
diferença (PD)

dados em painel
Sinal positivo e significativo.

dados em painel
Análise de dados em painel de dois períodos (alguns
problemas)
Embora a diferenciação de dados em painel de dois anos seja um meio
poderoso de controlar efeitos não observados, isso tem um custo.
▶ Primeiro, os conjuntos de dados em painel são mais difíceis de coletar do que
um corte transversal, especialmente de indivíduos.
Precisamos usar uma pesquisa e acompanhar o indivíduo para uma pesquisa
complementar.
Em unidades como empresas, algumas delas podem falir ou passar por uma
fusão com outras empresas.
Dados em painel são mais fáceis de ser obtidos de escolas, cidades, municípios,
estados e países.
▶ ∆xi pode não ter muita variação.
Elevando o erro padrão.
▶ xi não pode ser dummy que não pode mudar ao longo do tempo.
EX: dummy de sexo. (Uma mulher vai sempre ser mulher ∆xi )

dados em painel
Análise de dados em painel de dois períodos (Exemplo
problemático)
Como exemplo, considere o problema de estimar o retorno da educação, desta vez
usando dados em painel de indivíduos, de dois anos. O modelo por pessoa i é
em que ai contém aptidão não observada — que provavelmente é
correlacionada com educit(aptidão inata não muda ao longo do tempo).
Novamente, consideramos interceptos diferentes ao longo do tempo, para
levar em conta ganhos de produtividade agregados.

dados em painel
problemático)
O problema é que estamos interessados nos adultos que trabalham, e para a
maioria dos indivíduos empregados, a educação não muda ao longo do tempo.

dados em painel
problemático)
A adição de muitas variáveis explicativas não causa dificuldades. Iniciamos com o
modelo de efeitos não observados
Devemos adicionar maior número de variáveis explicativas para reduzir as chances
de ter variáveis não observaveis correlacionadas com x.

dados em painel
Dormir versus trabalhar
Estimar a relação de substituição entre o tempo gasto dormindo e
trabalhando.
slpnap é o tempo gasto dormindo.
totwrk é o tempo gasto trabalhando.
A variável educ representa anos de escolaridade.
marr é uma variável dummy que indica o estado civil.
yngkid é uma variável dummy que indica a presença de criança pequena e
gdhlth é uma variável dummy que indica se a pessoa goza de boa saúde.

dados em painel
Dormir versus trabalhar
As demais variáveis são não significativas.

dados em painel
Aplicação no R
Data3

dados em painel
Defasagens distribuídas da taxa de criminalidade sobre a
taxa de esclarecimento de crimes
Eide (1994) utiliza dados em painel de distritos policiais da Noruega para
estimar um modelo de defasagens distribuídas de taxas de criminalidade.
A única variável explicativa é o “percentual de esclarecimento” de crimes
(clrprc) — a porcentagem de crimes que levaram a uma condenação.
Os dados sobre a taxa de criminalidade são dos anos de 1972 e 1978.

dados em painel
Defasagens distribuídas da taxa de criminalidade sobre a
taxa de esclarecimento de crimes

dados em painel
Organização dos dados em painel (Primeira forma)
Crimes é a quantidade de crimes cometidos.
unem é a taxa de desemprego.
d87 é dummy que indica 1 se em 1987 e 0 se em 1982.
A melhor maneira de armazenar os dados é ter dois registros para cada
cidade, um para cada ano: o primeiro registro de cada cidade corresponde ao
ano mais antigo, e o segundo ao ano mais recente.
crimes unem d87
17136 8.2 0
17306 3.7 1
75654 8.1 0
83960 5.4 1
... ... ...

dados em painel
Organização dos dados em painel (Segunda forma)
Uma segunda maneira de organizar dois períodos de dados em painel é ter
apenas um registro por unidade de corte transversal.
Isso exige duas entradas para cada variável, uma para cada período de tempo.
crimes1982 crimes 1987 unem1982 unem 1987
17136 8.2 17306 3.7
75654 8.1 83960 5.4
... ... ... ...

dados em painel
Análise de decisões de políticas com dados em painel de
dois períodos
Conjuntos de dados em painel são muito úteis para a análise de decisões de
políticas, particularmente na avaliação de programas.
Na estrutura mais simples de avaliação de programas, uma amostra de
indivíduos, firmas, cidades etc. é obtida no primeiro período de tempo.
▶ Algumas dessas unidades, as pertencentes ao grupo de tratamento, farão parte
de um programa específico em um período de tempo posterior;
▶ as que não farão parte estão no grupo de controle.
Isso é semelhante à literatura sobre experimentos naturais discutida
anteriormente, com uma importante diferença: as mesmas unidades do corte
transversal aparecem em cada período de tempo.

dados em painel
dois períodos
suponha que queiramos avaliar o efeito de um programa de treinamento de
pessoal de Michigan sobre a produtividade dos trabalhadores de firmas
manufatureiras.
scrapit representar a taxa de refugo dos produtos da firma i durante o ano t
(o número de itens, em cada 100, que devem ser rejeitados por causa dos
defeitos).
Seja grantit um indicador binário igual a um se a firma i no ano t recebeu
subsídio de treinamento de pessoal.
Para os anos de 1987 e 1988, o modelo é
em que y88t é uma variável dummy para 1988 e ai é o efeito não observado
da firma ou o efeito fixo da firma.

dados em painel
dois períodos

dados em painel
dois períodos
log(scrapcontrole) − log(scraptratado) = −0, 317
Fazendo a exponenciação e a subtração, temos
scrapcontrole − scraptratado
scraptratado
= exp(−0, 317) − 1 = −0, 272

dados em painel
dois períodos

dados em painel
dois períodos
Se a participação no programa ocorrer nos dois períodos, ˆ
β1 não pode ser escrito
como em diff-diff, mas o interpretamos da mesma maneira: ele é a mudança no
valor médio de y em razão da participação no programa.

dados em painel
Efeitos da legislação a respeito da condução de veículos
sob embriaguez sobre as fatalidades no trânsito
Dois tipos de leis que estudaremos aqui são as leis de recipientes abertos.
1 que consideram ilegal os passageiros de um veículo ter em seu poder
recipientes abertos de bebidas alcoólicas.
2 e as leis administrativas propriamente ditas — que autorizam a Justiça a
suspender a carteira de habilitação do motorista preso por dirigir embriagado,
mesmo antes de sua con-denação.
Uma análise convincente utiliza dados em painel de um período de tempo em
que alguns estados tenham adotado novas leis (e alguns estados que tenham
revogado as leis até então existentes).

dados em painel
A variável dependente é o número de mortes no trânsito por 100 milhões de
milhas (dthrte).
Em 1985, 19 estados tinham leis de recipientes abertos, enquanto 22 estados
tinham essas leis em 1990.
Em 1985, 21 estados tinham leis administrativas propriamente ditas; esse
número subiu para 29 em 1990.

dados em painel
As estimativas sugerem que a adoção de uma lei de recipientes abertos
reduziu a taxa de fatalidades no trânsito em 0,42, efeito nada desprezível
considerando que a taxa média de mor-talidade em 1985 era de 2,7.
A lei administrativa propriamente dita tem efeito menor, e sua estatística t é
de somente 21,29; mas as estimativas dão os sinais que esperávamos.
O intercepto nessa equação mostra que as fatalidades no trânsito caíram
substancialmente em todos os estados ao longo do período de cinco anos,
tenha ou não havido mudanças de leis.

dados em painel
Aplicação no R
Data4

dados em painel
A diferenciação com mais de dois períodos de tempo

dados em painel

dados em painel
Prova no quadro.
Com T ≥ 3, as mudanças nas dummies de tempo podem assumir os valores
−1, 0, 1.
Se não estivermos interessados nos valores de δt, é mais fácil incluir dummies
de tempo no modelo diferenciado.
perdemos uma dummy de tempo, já que perdemos as observações do
primeiro período.
Generalizando

dados em painel
Observação
Como existe varios periodos de tempo, então poderemos ter erros
correlacionados ao longo do tempo.
O que é correlação serial?
▶ Autocorrelação (correlação serial) de primeira ordem: correlação existente
entre uma observação i qualquer e a observação imediatamente anterior (i-1).
Autocorrelação (correlação serial) de ordem q: correlação existente entre uma
observação i qualquer e a observação anterior (i-q).
Teste de correlação:
library(car)
durbinWatsonTest(modelo1)
Caso possuisse teria que usar o estimador de correção:
library(sandwich)
coeftest(modelo1, vcov. = vcovHAC(modelo1))
note que é diferente do HC4.
Serve para teste de hipotese.

dados em painel
Efeitos das zonas industriais sobre os pedidos de
seguro-desemprego
Papke (1994) estudou o efeito do programa de instalação de zonas industriais
(ZI) no estado norte-americano de Indiana sobre os pedidos de
seguro-desemprego.
Ela analisou 22 cidades de Indiana ao longo do período de 1980 a 1988.
Seis zonas industriais foram criadas em 1984 e mais quatro em 1985.
Doze das cidades da amostra não criaram zonas industriais nesse período;
elas serviram como grupo de controle.

dados em painel
seguro-desemprego
θt representa o conjunto de todas as dummies de tempo.
A variável binária ziit era igual a um se a cidade i no tempo t possuía uma
zona industrial; estamos interessados em β1.
O efeito não observado ai representa fato-res fixos que afetam o meio
ambiente econômico na cidade i.
▶ Como o estabelecimento de zonas industriais não foi feito de maneira aleatória
— zonas industriais normalmente são estabelecidas em áreas economicamente
debilitadas — é provável que ziit e ai sejam positivamente correlacionados

dados em painel
seguro-desemprego

dados em painel
Aplicação no R
data5
A estimativa de β1 é β1 = −0, 182 (erro padrão = 0, 078).
Portanto, parece que a presença de uma ZI provoca uma queda aproximada
de 16,6% [exp(−0, 182) − 1 −0, 166 nos pedidos de seguro-desemprego.
Esse é um efeito economicamente grande e estatisticamente significante.

dados em painel
Taxas de criminalidade municipais na Carolina do Norte
Cornwell e Trumbull (1994) usaram dados de 90 municípios da Carolina do
Norte, dos anos de 1981 a 1987, para estimar um modelo de efeitos não
observados da crimi-nalidade;
A taxa de criminalidade é o número de crimes por pessoa,
prbarr é a probabilidade estimada de prisão,
prbconv é a probabilidade de condenação (tendo havido uma prisão),
prbpris é a probabilidade de cumprir pena prisional (tendo havido uma
condenação),
avgsen é a duração média da sentença cumprida e polpc é o número de
policiais per capita.

dados em painel
Taxas de criminalidade municipais na Carolina do Norte

dados em painel
Resultado e aplicação no R
Data6
a estimativa para polpac aumento de 1% no número de policiais per capita
aumenta a taxa de criminalidade em cerca de 0,4%.
▶ O que estará acontecendo aqui? Existem pelo me-nos duas possibilidades.
1 Primeiro, a variável da taxa de criminalidade é calculada com base nos crimes
denunciados. Pode ser que, quando há mais policiais, mais crimes são
registrados.
2 Segundo, a variável do número de policiais pode ser endógena na equação por
outras razões: os municípios podem aumentar a força policial quando preveem
aumento da criminalidade.

Métodos avançados de dados em painel
dados em painel

Discutiremos o estimador de efeitos fixos que, assim como a primeira
diferença, usa transformação para remover o efeito não observado ai antes da
estimação. Quaisquer variáveis explicativas constantes no tempo são
removidas com ai .
O estimador de efeitos aleatórios é importante quando pensamos que o efeito
não observado é não correlacionado com todas as variáveis explicativas.
Posteriormente, introduziremos a nova abordagem de efeitos aleatórios
correlacionados, que fornece uma síntese de efeitos fixos e métodos de efeitos
aleatórios, e que tem se mostrado muito útil na prática.

Estimação de efeitos fixos
A primeira diferença é apenas uma das muitas maneiras de eliminar o efeito
fixo, ai .
Um método alternativo que funciona melhor sob certas hipóteses é chamado
de transformação de efeitos fixos.
Para verificar o que esse método envolve, considere um modelo com uma
única variável explicativa: para cada i,

O importante sobre a equação (14.3) é que o efeito não observado, ai ,
desapareceu.
Um estimador MQO agrupado baseado em variáveis temporais reduzidas é
chamado de estimador de efeitos fixos ou estimador intragrupo.
Esse último nome vem do fato de que o MQO em (14.3) usa a variação
temporal em y e x dentro de cada observação do corte transversal.

Estimação de efeitos fixos: hipoteses

estimação de efeitos fixos
O estimador de efeitos fixos leva em conta uma correlação arbitrária entre ai
e as variáveis explicativas em qualquer período de tempo, como na primeira
diferença.
Por esse motivo, qualquer variável explicativa que seja constante ao longo do
tempo para todo i é removida pela transformação de efeitos fixos: ẍit = 0
para todo i e t, se xit for constante ao longo de t.
▶ Portanto, não podemos incluir variáveis tais como sexo ou distância de uma
cidade até um rio.

Efeito do treinamento de pessoal sobre as taxas de refugos
de produtos das empresas
Utilizamos os dados de três anos, 1987, 1988 e 1989, de 54 empresas que
informaram suas taxas de refugos em cada ano.
Nenhuma das empresas havia recebido subsídio de treinamento antes de 1988;
em 1988, 19 empresas receberam subsídios;
em 1989, outras 10 empresas receberam subsídios.
Portanto, também devemos considerar a possibilidade de que o treinamento
adicional de pessoal em 1988 tenha tornado os trabalhadores mais produtivos
em 1989. Isso é feito com facilidade com a inclusão de um valor defasado do
indicador de subsídios.
Também incluímos dummies anuais para 1988 e 1989.

Como a variável dependente está na forma logarítmica, prevê-se que a
obtenção de um subsídio em 1988 reduz a taxa de refugo da empresa em
1989 em cerca de 34,4% (exp(−0, 422) − 1) = −0, 344;
O coeficiente de d89 indica que a taxa de refugo foi substancialmente menor
em 1989 do que no ano-base, 1987, mesmo na ausência de subsídios de
treinamento de pessoal.

Interpretação do R2
O R-quadrado dado é baseado na transformação intragrupo: ele é o
R-quadrado obtido da estimativa de (14.5).
Assim, ele é interpretado como o montante da variação temporal em yit, que
é explicada pela variação temporal nas variáveis explicativas.

Embora variáveis constantes no tempo não possam ser incluídas por si
mesmas em um modelo de efeitos fixos, elas podem interagir com variáveis
que mudam ao longo do tempo e, particularmente, com variáveis dummy
anuais.
▶ Por exemplo, em uma equação de salários na qual a educação é constante ao
longo do tempo para cada indivíduo em nossa amostra, podemos interagir a
educação com cada dummy anual para verificar como o retorno da educação
mudou ao longo do tempo.

O retorno da educação mudou no transcorrer do tempo?
Cada um dos 545 homens na amostra trabalhou em todos os anos de 1980 a
1987.
Algumas variáveis no conjunto de dados mudam ao longo do tempo:
experiência, estado civil e filiação sindical são as três mais importantes.
Outras variáveis não mudam: raça e educação são os principais exemplos. Se
usarmos efeitos fixos (ou primeira diferença), não poderemos incluir raça,
educação na equação.
Todavia, podemos incluir interações de educ com dummies anuais para 1981
a 1987, para testar se o retorno da educação foi constante ao longo desse
período de tempo.
Usamos log(salário) como variável dependente, variáveis dummy para estado
civil e filiação sindical, um conjunto completo de dummies anuais e os termos
de interação d81.educ, d82.educ, ..., d87.educ.

(Aplicação no R)
Data 7

(Resultado)
As estimativas desses termos de interação são todas positivas e geralmente
ficam maiores para os anos mais recentes.
O maior coeficiente (0,030) é o de d87.educ, com t = 2, 48. Em outras
palavras, estima-se que o retorno da educação seja cerca de três pontos
percentuais maior em 1987 do que no ano-base, 1980.
O outro termo de interação significante é d86.educ (coeficiente = 0,027,
t = 2, 23).
As estimativas dos primeiros anos são menores e não significantes no nível de
5% contra uma alternativa bilateral.

Estimação de efeito fixo com dummies
Existe outra forma forma de estimar o modelo de efeito fixos. Usando os
dados originais , yit xit, faça a regressão de yit em N variáveis dummy
diferentes, para cada indivíduo.
yit = a1ind1it + a2ind2it + ... + aNindNit + β1xit1 + ... + βk xitk + uit
Problema:
▶ Uma base de dados com muitos indivíduos fica muito trabalhoso.

Estimação de efeito fixo com dummies
Ocasionalmente, os interceptos estimados, digamos âi , são de interesse.
Esse é o caso, se quisermos estudar a distribuição de âi
ao longo de i, ou se
quisermos selecionar uma empresa ou cidade em particular para verificar se âi
está acima ou abaixo do valor médio na amostra.
Essas estimativas são disponibilizadas diretamente pela regressão das
variáveis dummy, mas raramente são descritas pelos programas que possuem
rotinas de efeitos fixos (pela razão prática de existirem muitos âi ).
Após a estimação dos efeitos fixos com N de qualquer tamanho, os âi serão
calculados com facilidade:

Estimação de efeito fixo com dummies: Exemplo
Por exemplo, se estimarmos um modelo da criminalidade controlando vários
fatores de variação temporal, poderemos obter âi para uma cidade, para
verificar se os efeitos fixos não observados que contribuem para a
criminalidade estão acima ou abaixo da média.

Efeitos fixos ou primeira diferença?
Até agora, sem considerar o MQO agrupado, vimos dois métodos para
estimar mode-los de efeitos não observados.
Um deles envolve a diferenciação dos dados e o outro a centralização na
média. Como saber qual deles usar?

Com T = 2 A regressão de primeira diferença é igual a de efeito fixo com
uma dummy de tempo.
Quando T ≥ 3, os estimadores EF e PD não são os mesmos.
▶ Como ambos são não viesados sob as Hipóteses EF.1 a EF.4, não podemos
usar a inexistência de viés como um critério.
▶ Além disso, ambos são consistentes sob EF.1 a EF.4 (com T fixo e N
tendendo ao infinito).
▶ Para N grande e T pequeno, a escolha entre EF e PD dependerá da eficiência
relativa dos estimadores, e isso é determinado pela correlação serial nos erros
idiossincráticos, uit .

T ≥ 3
▶ Quando os uit são serialmente não correlacionados, os efeitos fixos são mais
eficientes que a primeira diferença.
▶ Se uit são serialmente correlacionados o de primeira diferença é mais eficiênte,
desde que ∆uit seja não correlacionado.
▶ Em caso dos dois modelos serem correlacionado EF provavelmente será melhor.

Efeitos fixos com painéis não equilibrados
Em alguns conjuntos de dados em painel, especialmente de pessoas ou
empresas, estão ausentes certos anos em pelo menos algumas unidades do
corte transversal na amostra.
Nesse caso, chamamos o conjunto de dados em painel não equilibrado.
A mecânica de estimação dos efeitos fixos com um painel não equilibrado não
é muito mais difícil que com um painel equilibrado.
▶ Se Ti for o número de períodos de tempo da unidade i do corte transversal,
simplesmente usamos essas Ti observações para fazer a centralização na
média.
▶ O número total de observações será, então, T1 + T2 + ... + TN .

Efeitos fixos com painéis não equilibrados
O problema mais difícil com um painel não equilibrado é determinar a razão
de ele não ser equilibrado.
Com cidades e estados, por exemplo, algumas vezes os dados de variáveis
importantes faltam para certos anos.
Desde que a razão da falta de dados de algum i não seja correlacionada com
os erros idiossincráticos, uit, o painel não equilibrado não causará problemas.

Efeito do treinamento de pessoal sobre as taxas de refugo
das empresas
Adicionamos duas variáveis à análise da Tabela 14.1: log(salesit) e
log(employit), em que sales representa as vendas anuais da empresa e employ
é o número de empregados.
Três das 54 firmas são inteiramente eliminadas da análise por não possuírem
dados sobre vendas ou emprego.
Cinco observações adicionais são perdidas em razão da falta de dados em uma
ou em ambas dessas variáveis para alguns anos, deixando-nos com n = 148.
O uso de efeitos fixos no painel não equilibrado não altera a situação básica,
embora o efeito estimado dos subsídios fique maior: β̂grant = −0, 297,
tgrant = −1, 89; β̂grant−1 = −0.526, tgrant = −2, 389.

Cadeira_Econometria_2.pdf

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Cadeira_Econometria_2.pdf

Semelhante a Cadeira_Econometria_2.pdf (20)

Cadeira_Econometria_2.pdf