PhD Business & Economics – Econometric Analysis
Academic Year 2018/2019
Anabela Botelho
Homework Assignment #2
Consider the data set “HW_Data.xls” containing a panel of data on investment
(y) and profit (x) for n=3 firms over T=10 periods.
Please answer the following questions as thoroughly as possible (along with
your answers, you are required to hand me the output file, in text format, of the Stata
software. Include this as an appendix to the document you hand me). Hand me your
answers to the homework assignment until January 18th
, 2019).
(1) Pool the data and compute the least squares regression coefficients of
the model 𝑦𝑖𝑡 = 𝜇 + 𝛽𝑥𝑖𝑡 + 𝑢𝑖𝑡. Display and interpret the results.
Primeiramente iremos prepara os dados, ou seja, através do comando xtset i t, sendo
i o número de empresas e t o tempo ou períodos. Verifica-se que, o modelo é extremamente
balanceado (strongly balanced), ou seja, o modelo não apresenta missing values (Figura 1).
Vamos estimar inicialmente um modelo de dados em painel designado de Pooled
(Figura 2):
𝑦 = −0,747 + 1,059𝑥
𝜇 = −0,747 → estima-se que seja de – 0, 747 no investimento, quando o lucro for
zero, ou seja, existe um impacto negativo no investimento, ceteris paribus. O sinal esperado
é negativo, logo este parâmetro encontra-se de acordo com o esperado. Tendo um 𝑝 −
𝑣𝑎𝑙𝑢𝑒 = 0,441 > 0,05, verificamos que o 𝜇 não é significativo.
𝛽1 = 1,059 → estima-se que um aumento de uma unidade no lucro, afecta
positivamente o investimento em 1, 059, ceteris paribus. O sinal esperado é positivo, logo
este parâmetro encontra-se de acordo com o esperado. Tendo um 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0,000 <
0,05, verificamos que o 𝛽1 é significativo.
𝑃𝑟𝑜𝑏 > 𝐹 = 0,000 → a estatística F testa a hipótese conjunta nula de que todos os
coeficientes no modelo excluindo a constante são zero. Observamos que o p-value é menor
que 0,05, assim rejeitamos fortemente a hipótese nula e concluímos que o modelo como
um todo é altamente significativo (Figura 3).
𝑅2
= 0,921 → verificamos, que 92,1 % do investimento é explicado pelo modelo.
Sendo este um valor elevado, pode-se dizer que o lucro explica grande parte do
investimento.
(2) Estimate the LSDV model based on the following formulation: 𝑦𝑖𝑡 = 𝛼𝑖 +
𝛽𝑥𝑖𝑡 + 𝜀𝑖𝑡. Interpret the results. Test the hypothesis that the constant term is the same
for all three firms. What do you conclude? Display all results.
Fixed Effects – LSDV (Least Squares Dummy Variable)
Para estimar este modelo, vamos criar variáveis Dummy, usando o comando
tabulate e a opção genarate (g). Foram geradas três variáveis Dummy, g1, g2 e g3,
correspondendo as três empresas (Figura 4). Vamos estimar o modelo com variáveis
dummy’s:
𝑦 = 1,102 ∙ 𝑥 − 1,468 ∙ 𝑔1 − 2,836 ∙ 𝑔2 + 0,121 ∙ 𝑔3
Este modelo é estimado sem a constante, devido a evitar cair na “armadilha da variável
dummy” de multicolinearidade perfeita (Figura 5).
𝛽1 = 1,102 → estima-se que um aumento de uma unidade no lucro, afecta
positivamente o investimento em 1,102, ceteris paribus. O sinal esperado é positivo, logo
este parâmetro encontra-se de acordo com o esperado. Tendo um 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0,000 <
0,05, verificamos que o 𝛽1 é significativo.
Relativamente as variáveis dummy’s, verifica-se que só g1, é que não é
significativa. Todas as variáveis dummy’s causam impacto negativo no investimento.
𝑃𝑟𝑜𝑏 > 𝐹 = 0,000 → a estatística F testa a hipótese conjunta nula de que todos os
coeficientes no modelo excluindo a constante são zero. Observamos que o p-value é menor
que 0,05, assim rejeitamos fortemente a hipótese nula e concluídos que o modelo como um
todo é altamente significativo.
𝑅2
= 0,990 → verificamos, que 99,0 % do investimento é explicado pelo modelo.
Sendo este um valor elevado, pode-se dizer que o lucro explica grande parte do
investimento.
Se compararmos o modelo Pooled (Figura 2), e o novo modelo LSDV (Figura 5),
verificamos de o modelo de LSDV apresenta um 𝑅2
mais elevado. Assim, qual dos dois
modelos é o melhor? Ou então, podemos supor que não há efeito temporal significativo ou
efeito transversal significativo, e agrupar os dados e executar um modelo de regressão OLS
com um intercepto 𝛼 e coeficientes de inclinação 𝛽𝑠 constantes entre empresas e tempo?
Assim, usando o teste Pooled vs FE, ou seja, testar o modelo pooled vs o modelo LSDV.
Este é um Teste F (Figura 6), testando para todos os coeficientes são iguais. Verificamos
que, 𝑃𝑟𝑜𝑏 > 𝐹 = 0,0042 < 0,05, rejeitamos fortemente a hipótese nula, ou seja, o modelo
pooled não é validado. Então, o modelo LSDV é melhor que o modelo pooled.
(3) Suppose that the previous model is formulated with an overall constant
term and n-1 dummy variables (dropping the first one). Investigate the effect that this
supposition has on the set of dummy variable coefficients and on the least squares
estimates of the slopes. Display all results.
Este é outro método que na presença do pressuposto de que os efeitos específicos do
individuo estão correlacionados com as variáveis independentes conhecido como Método
de Efeitos Fixos (Figura 7).
Como podemos observar (Figura 8), o coeficiente do 𝑥 = 1,102 é igual para os
dois modelos de efeitos fixos, sendo também estatisticamente significante (𝑝 − 𝑣𝑎𝑙𝑢𝑒 =
0,000). Ou seja, um aumento numa unidade de 𝑥, implica um aumento em 𝑦. Verifica-se
que ambos os métodos são apropriados, 𝑃𝑟𝑜𝑏 > 𝐹 = 0,0042 < 0,05, rejeitamos a hipótese
nula, logo o modelo de efeitos fixos é melhor que o modelo Pooled.
𝑟ℎ𝑜 = 0,418 → ou seja, 41,8% da variância é devido as diferenças entre painéis
(rho é conhecido como a correlação intra-classes).
𝑐𝑜𝑟𝑟(𝑢_𝑖, 𝑋𝑏) = −0,231, os erros 𝑢𝑖 são correlacionados com os regressores no
modelo de efeitos fixos.
(4) Estimate the random effects model for these data, and then carry out
the Lagrange multiplier test. What do you conclude? Explain the test, and display all
the results.
No modelo de efeitos aleatórios (Figura 9), as componentes de erro individuais não
são correlacionada entre si e não são autocorrelacionados em unidades cross-section ou
time series. A presença de 𝛼 e 𝜇𝑖 na equação significa que a amostra das três empresas é
desenhada da mesma população e têm um valor médio comum para o intercepto (𝛼); as
diferenças individuais nos valores de intercepto de cada empresa são reflectidas no termo
do erro 𝜇𝑖.
Note-se que os efeitos marginais e o intercepto são quase iguais aos do modelo de
efeitos fixos. No entanto, o intercepto não é estatisticamente significativo (𝑝 − 𝑣𝑎𝑙𝑢𝑒 =
0,434). Também podemos observar que os 𝑅2
são iguais ao modelo de efeitos fixos.
Como o estimador do modelo RE possui apenas propriedades assimptóticas, a
estatística F para a significância global do modelo não é relatada aqui, em vez disso, temos
os resultados de um teste qui-quadrado de Wald (𝑃𝑟𝑜𝑏 > 𝑐ℎ𝑖2 = 0,000) que indica que o
modelo como um todo é (todos os coeficientes tomados conjuntamente são) significativos.
𝑐𝑜𝑟𝑟(𝑢_𝑖, 𝑋) = 0 (𝑎𝑠𝑠𝑢𝑚𝑒𝑑), os erros 𝑢𝑖 não são correlacionados com os regressores.
Para testar entre o modelo Pooled vs Modelo RE (Figura 10), vamos usar o Teste
do Lagrangiano Breusch and Pagan. A hipótese nula no teste LM é que as variâncias entre
entidades são zero. Isto é, sem diferenças significativas entre as unidades (ou seja, sem
efeito painel).
Verificamos que, 𝑃𝑟𝑜𝑏 > 𝑐ℎ𝑖𝑏𝑎𝑟2 = 1.000, não rejeitamos a hipótese nula,
concluindo então os efeitos aleatórios não são apropriados. Ou seja, nenhuma evidencia
significativa de diferenças entre as empresas, portanto, podemos executar uma simples
regressão OLS.
(5) Carry out Hausman’s specification test for the random versus the fixed
effect model for these data. What do you conclude? Explain the test, and display all
results.
Hausman’s test (Figura 11), serve para decidir entre os efeitos fixos e os efeitos
aleatórios, onde a hipótese nula é que o modelo preferido é os efeitos aleatórios versus a
alternativa dos efeitos fixos. Ou seja, esta se os erros 𝜇𝑖 estão correlacionados com os
regressores, a hipótese numa é que os erros não estão correlacionados.
Podemos verificar que, existe algum problema do teste de Hausman, pois o valor da
estatística é negativo e também refere que os dados violam o pressuposto da propriedade
assimptótica do teste de Hausman. Embora o valor de qui-quadrado (-2,15) seja pequena o
suficiente para não rejeitar a hipótese nula, não podemos concluir que o modelo de efeitos
aleatórios é melhor do que a sua contraparte fixa; o teste não é conclusivo. Este facto pode
acontecer se tivermos uma amostra muito pequena ou uma especificação incorrecta do
modelo. Olhando para a mostras, podemos dizer que 30 observações é bastante pequena
para inferir se o lucro tem impacto no investimento nas três empresas em análise.
Vamos ainda usar o comando xtoverid (Figura 12), que dará uma estatística
positiva. Ou seja, calcula versões de um teste de restrições de identificação excessiva
(condições de ortogonalidade) para uma estimação de dados em painel. Este teste resulta
em dados em painel, e testa as mesmas hipóteses que o teste de Hausman. Sob
homocedasticidade condicional, esta estatística de teste é assimptoticamente equivalente ao
habitual teste de efeitos fixo vs aleatórios de Hausman. Com o painel balanceado, a
regressão artificial e as estatísticas de teste de Hausman são numericamente iguais.
O Stata também não calcula este teste e diz-nos que as estimativas RE são
degeneradas (sigma_u=0) e é equivalente a regressão OLS agrupadas. Sendo assim, vai de
encontro ao teste qui-quadrado do modelo de RE que dos diz que o melhor modelo é o
Pooled.
O sinal negativo pode surgir se diferentes estimativas da variância do erro forem
usadas na formação da variância. Assim, precisamos usar a opção sigmamore (Figura 13),
que especifica que ambas as matrizes de covariância são baseadas na (mesma) estimativa
variação de perturbação do estimador eficiente (Microeconometrixs using Stata, by
Cameron and Trivedi p. 261).
Assim, rejeitamos a hipótese nula, e concluímos que o modelo RE não é apropriado.
E como já tínhamos testado o facto de o pooled vs efeitos fixos, podemos dizer que o
melhor modelo é o de efeitos fixos.
Output file – Stata
Figura 1 - Set dos dados painel
Figura 2 - Pooled Regression
Figura 3 - F-statistic
Figura 4 - Gerar variáveis Dummy (g)
Figura 5 - LSDV: Efeitos individuais (sem constante)
Figura 6 - Hipótese de que os coeficientes são todos iguais
Figura 7 - Efeitos fixos para efeitos individuais
Figura 8 - Estimação Dummy-Fixed
Figura 9 - Efeitos Aleatórios
Figura 10 - Teste de Lagrange (B&P)
Figura 11 - Teste de Hausman
Figura 12 - xtoverid
Figura 13 - Teste de Hausman robusto

Take Home 2 - analise econometrica .pdf

  • 1.
    PhD Business &Economics – Econometric Analysis Academic Year 2018/2019 Anabela Botelho Homework Assignment #2 Consider the data set “HW_Data.xls” containing a panel of data on investment (y) and profit (x) for n=3 firms over T=10 periods. Please answer the following questions as thoroughly as possible (along with your answers, you are required to hand me the output file, in text format, of the Stata software. Include this as an appendix to the document you hand me). Hand me your answers to the homework assignment until January 18th , 2019). (1) Pool the data and compute the least squares regression coefficients of the model 𝑦𝑖𝑡 = 𝜇 + 𝛽𝑥𝑖𝑡 + 𝑢𝑖𝑡. Display and interpret the results. Primeiramente iremos prepara os dados, ou seja, através do comando xtset i t, sendo i o número de empresas e t o tempo ou períodos. Verifica-se que, o modelo é extremamente balanceado (strongly balanced), ou seja, o modelo não apresenta missing values (Figura 1). Vamos estimar inicialmente um modelo de dados em painel designado de Pooled (Figura 2): 𝑦 = −0,747 + 1,059𝑥 𝜇 = −0,747 → estima-se que seja de – 0, 747 no investimento, quando o lucro for zero, ou seja, existe um impacto negativo no investimento, ceteris paribus. O sinal esperado é negativo, logo este parâmetro encontra-se de acordo com o esperado. Tendo um 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0,441 > 0,05, verificamos que o 𝜇 não é significativo. 𝛽1 = 1,059 → estima-se que um aumento de uma unidade no lucro, afecta positivamente o investimento em 1, 059, ceteris paribus. O sinal esperado é positivo, logo
  • 2.
    este parâmetro encontra-sede acordo com o esperado. Tendo um 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0,000 < 0,05, verificamos que o 𝛽1 é significativo. 𝑃𝑟𝑜𝑏 > 𝐹 = 0,000 → a estatística F testa a hipótese conjunta nula de que todos os coeficientes no modelo excluindo a constante são zero. Observamos que o p-value é menor que 0,05, assim rejeitamos fortemente a hipótese nula e concluímos que o modelo como um todo é altamente significativo (Figura 3). 𝑅2 = 0,921 → verificamos, que 92,1 % do investimento é explicado pelo modelo. Sendo este um valor elevado, pode-se dizer que o lucro explica grande parte do investimento. (2) Estimate the LSDV model based on the following formulation: 𝑦𝑖𝑡 = 𝛼𝑖 + 𝛽𝑥𝑖𝑡 + 𝜀𝑖𝑡. Interpret the results. Test the hypothesis that the constant term is the same for all three firms. What do you conclude? Display all results. Fixed Effects – LSDV (Least Squares Dummy Variable) Para estimar este modelo, vamos criar variáveis Dummy, usando o comando tabulate e a opção genarate (g). Foram geradas três variáveis Dummy, g1, g2 e g3, correspondendo as três empresas (Figura 4). Vamos estimar o modelo com variáveis dummy’s: 𝑦 = 1,102 ∙ 𝑥 − 1,468 ∙ 𝑔1 − 2,836 ∙ 𝑔2 + 0,121 ∙ 𝑔3 Este modelo é estimado sem a constante, devido a evitar cair na “armadilha da variável dummy” de multicolinearidade perfeita (Figura 5). 𝛽1 = 1,102 → estima-se que um aumento de uma unidade no lucro, afecta positivamente o investimento em 1,102, ceteris paribus. O sinal esperado é positivo, logo este parâmetro encontra-se de acordo com o esperado. Tendo um 𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0,000 < 0,05, verificamos que o 𝛽1 é significativo. Relativamente as variáveis dummy’s, verifica-se que só g1, é que não é significativa. Todas as variáveis dummy’s causam impacto negativo no investimento.
  • 3.
    𝑃𝑟𝑜𝑏 > 𝐹= 0,000 → a estatística F testa a hipótese conjunta nula de que todos os coeficientes no modelo excluindo a constante são zero. Observamos que o p-value é menor que 0,05, assim rejeitamos fortemente a hipótese nula e concluídos que o modelo como um todo é altamente significativo. 𝑅2 = 0,990 → verificamos, que 99,0 % do investimento é explicado pelo modelo. Sendo este um valor elevado, pode-se dizer que o lucro explica grande parte do investimento. Se compararmos o modelo Pooled (Figura 2), e o novo modelo LSDV (Figura 5), verificamos de o modelo de LSDV apresenta um 𝑅2 mais elevado. Assim, qual dos dois modelos é o melhor? Ou então, podemos supor que não há efeito temporal significativo ou efeito transversal significativo, e agrupar os dados e executar um modelo de regressão OLS com um intercepto 𝛼 e coeficientes de inclinação 𝛽𝑠 constantes entre empresas e tempo? Assim, usando o teste Pooled vs FE, ou seja, testar o modelo pooled vs o modelo LSDV. Este é um Teste F (Figura 6), testando para todos os coeficientes são iguais. Verificamos que, 𝑃𝑟𝑜𝑏 > 𝐹 = 0,0042 < 0,05, rejeitamos fortemente a hipótese nula, ou seja, o modelo pooled não é validado. Então, o modelo LSDV é melhor que o modelo pooled. (3) Suppose that the previous model is formulated with an overall constant term and n-1 dummy variables (dropping the first one). Investigate the effect that this supposition has on the set of dummy variable coefficients and on the least squares estimates of the slopes. Display all results. Este é outro método que na presença do pressuposto de que os efeitos específicos do individuo estão correlacionados com as variáveis independentes conhecido como Método de Efeitos Fixos (Figura 7). Como podemos observar (Figura 8), o coeficiente do 𝑥 = 1,102 é igual para os dois modelos de efeitos fixos, sendo também estatisticamente significante (𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0,000). Ou seja, um aumento numa unidade de 𝑥, implica um aumento em 𝑦. Verifica-se
  • 4.
    que ambos osmétodos são apropriados, 𝑃𝑟𝑜𝑏 > 𝐹 = 0,0042 < 0,05, rejeitamos a hipótese nula, logo o modelo de efeitos fixos é melhor que o modelo Pooled. 𝑟ℎ𝑜 = 0,418 → ou seja, 41,8% da variância é devido as diferenças entre painéis (rho é conhecido como a correlação intra-classes). 𝑐𝑜𝑟𝑟(𝑢_𝑖, 𝑋𝑏) = −0,231, os erros 𝑢𝑖 são correlacionados com os regressores no modelo de efeitos fixos. (4) Estimate the random effects model for these data, and then carry out the Lagrange multiplier test. What do you conclude? Explain the test, and display all the results. No modelo de efeitos aleatórios (Figura 9), as componentes de erro individuais não são correlacionada entre si e não são autocorrelacionados em unidades cross-section ou time series. A presença de 𝛼 e 𝜇𝑖 na equação significa que a amostra das três empresas é desenhada da mesma população e têm um valor médio comum para o intercepto (𝛼); as diferenças individuais nos valores de intercepto de cada empresa são reflectidas no termo do erro 𝜇𝑖. Note-se que os efeitos marginais e o intercepto são quase iguais aos do modelo de efeitos fixos. No entanto, o intercepto não é estatisticamente significativo (𝑝 − 𝑣𝑎𝑙𝑢𝑒 = 0,434). Também podemos observar que os 𝑅2 são iguais ao modelo de efeitos fixos. Como o estimador do modelo RE possui apenas propriedades assimptóticas, a estatística F para a significância global do modelo não é relatada aqui, em vez disso, temos os resultados de um teste qui-quadrado de Wald (𝑃𝑟𝑜𝑏 > 𝑐ℎ𝑖2 = 0,000) que indica que o modelo como um todo é (todos os coeficientes tomados conjuntamente são) significativos. 𝑐𝑜𝑟𝑟(𝑢_𝑖, 𝑋) = 0 (𝑎𝑠𝑠𝑢𝑚𝑒𝑑), os erros 𝑢𝑖 não são correlacionados com os regressores. Para testar entre o modelo Pooled vs Modelo RE (Figura 10), vamos usar o Teste do Lagrangiano Breusch and Pagan. A hipótese nula no teste LM é que as variâncias entre entidades são zero. Isto é, sem diferenças significativas entre as unidades (ou seja, sem
  • 5.
    efeito painel). Verificamos que,𝑃𝑟𝑜𝑏 > 𝑐ℎ𝑖𝑏𝑎𝑟2 = 1.000, não rejeitamos a hipótese nula, concluindo então os efeitos aleatórios não são apropriados. Ou seja, nenhuma evidencia significativa de diferenças entre as empresas, portanto, podemos executar uma simples regressão OLS. (5) Carry out Hausman’s specification test for the random versus the fixed effect model for these data. What do you conclude? Explain the test, and display all results. Hausman’s test (Figura 11), serve para decidir entre os efeitos fixos e os efeitos aleatórios, onde a hipótese nula é que o modelo preferido é os efeitos aleatórios versus a alternativa dos efeitos fixos. Ou seja, esta se os erros 𝜇𝑖 estão correlacionados com os regressores, a hipótese numa é que os erros não estão correlacionados. Podemos verificar que, existe algum problema do teste de Hausman, pois o valor da estatística é negativo e também refere que os dados violam o pressuposto da propriedade assimptótica do teste de Hausman. Embora o valor de qui-quadrado (-2,15) seja pequena o suficiente para não rejeitar a hipótese nula, não podemos concluir que o modelo de efeitos aleatórios é melhor do que a sua contraparte fixa; o teste não é conclusivo. Este facto pode acontecer se tivermos uma amostra muito pequena ou uma especificação incorrecta do modelo. Olhando para a mostras, podemos dizer que 30 observações é bastante pequena para inferir se o lucro tem impacto no investimento nas três empresas em análise. Vamos ainda usar o comando xtoverid (Figura 12), que dará uma estatística positiva. Ou seja, calcula versões de um teste de restrições de identificação excessiva (condições de ortogonalidade) para uma estimação de dados em painel. Este teste resulta em dados em painel, e testa as mesmas hipóteses que o teste de Hausman. Sob homocedasticidade condicional, esta estatística de teste é assimptoticamente equivalente ao habitual teste de efeitos fixo vs aleatórios de Hausman. Com o painel balanceado, a regressão artificial e as estatísticas de teste de Hausman são numericamente iguais. O Stata também não calcula este teste e diz-nos que as estimativas RE são
  • 6.
    degeneradas (sigma_u=0) eé equivalente a regressão OLS agrupadas. Sendo assim, vai de encontro ao teste qui-quadrado do modelo de RE que dos diz que o melhor modelo é o Pooled. O sinal negativo pode surgir se diferentes estimativas da variância do erro forem usadas na formação da variância. Assim, precisamos usar a opção sigmamore (Figura 13), que especifica que ambas as matrizes de covariância são baseadas na (mesma) estimativa variação de perturbação do estimador eficiente (Microeconometrixs using Stata, by Cameron and Trivedi p. 261). Assim, rejeitamos a hipótese nula, e concluímos que o modelo RE não é apropriado. E como já tínhamos testado o facto de o pooled vs efeitos fixos, podemos dizer que o melhor modelo é o de efeitos fixos.
  • 7.
    Output file –Stata Figura 1 - Set dos dados painel Figura 2 - Pooled Regression Figura 3 - F-statistic
  • 8.
    Figura 4 -Gerar variáveis Dummy (g) Figura 5 - LSDV: Efeitos individuais (sem constante) Figura 6 - Hipótese de que os coeficientes são todos iguais
  • 9.
    Figura 7 -Efeitos fixos para efeitos individuais Figura 8 - Estimação Dummy-Fixed
  • 10.
    Figura 9 -Efeitos Aleatórios Figura 10 - Teste de Lagrange (B&P)
  • 11.
    Figura 11 -Teste de Hausman Figura 12 - xtoverid Figura 13 - Teste de Hausman robusto