Revisão de matrizes e introdução à regressão linear simples

Universidade Federal da Paraíba - Centro de Ciências Sociais Aplicadas - Programa de Pós-Graduação em Ciências Contábeis
Campus I - Cidade Universitária - CEP 58.051-900 - João Pessoa/PB
Telefone: +55 (83) 3216 7285 - http://ccsa.ufpb.br/ppgcc - e-mail: ppgcc@ccsa.ufpb.br
Introdução ao MCRL
Luiz Felipe de Araújo Pontes Girão
luizfelipe@ccsa.ufpb.br
Revisão de Matrizes (exercício feito em casa e não será feito na
sala). Introdução à RL simples. Pressupostos. Testes de hipóteses.
Aplicações práticas.

Revisão de matrizes
• Exercícios retirados de: SHORES, Thomas S. Applied linear algebra and
matrix analysis. 2000.
• Façam apenas os que estiverem destacados em amarelo.
www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 2

O que é um modelo de regressão?
• É um modelo que descreve e analisa a relação entre uma variável
dependente e uma ou mais variáveis independentes.
• Na regressão existe apenas uma variável dependente. Para mais de uma
dependente, você deverá utilizar a correlação canônica.

Regressão x Correlação
• A correlação mede apenas o grau de associação linear entre duas variáveis.
• A regressão vai além disso, é mais flexível e forte do que a correlação:
• Com a correlação não é preciso saber quem é Y ou quem é X, na
regressão sim;
• Com a regressão nós podemos fazer algum tipo de previsão de Y com
base em X, com a correlação não; e
• Correlação não quer dizer “causação”. Nem regressão, estritamente
(ver no futuro “causa Granger”).

Regressão Simples
• É o tipo de regressão que contém apenas uma variável dependente: y = a + bx
• A regressão simples nos apresenta resultados semelhantes ao da correlação.
• Exemplo de regressão simples  CAPM padrão: 𝑅𝑒𝑡𝐸𝑥𝑐 𝑡 = 𝛼 + 𝛽𝑃𝑅𝑀𝑡 + 𝜀 𝑡

Regressão Simples
• Com um gráfico de dispersão é possível verificar a relação entre duas
variáveis, inicialmente:

Regressão Simples
• Podemos expressar a relação do slide anterior (e muitas outras) por meio
de uma equação:
𝑦 = 𝛼 + 𝛽𝑥
• Como somos uma Ciência Social e a nossa relação nunca será exata (a não
ser que você queira explicar os custos totais pelos custos fixos e variáveis),
não temos como explicar tudo (devemos desconfiar quando
“conseguimos” explicar quase tudo em uma regressão), então inserimos
um termo de erro:
𝑦𝑡 = 𝛼 + 𝛽𝑥𝑡 + 𝒖 𝒕

Regressão Simples
e.g. se a assimetria for meu “y”, como mensurar? Essa mensuração foi correta?
Outros fatores
fora do modelo
podem
influenciar “y”

Regressão Simples
• Os parâmetros devem reduzir, em conjunto, a distância (verticalmente) do ponto
observado para a reta estimada.
y = 0.8298x + 0.0223
R² = 0.5444
0
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
0.18
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16 0.18
Estimação do Beta

Regressão Simples
• A forma mais comum de se minimizar a distância entre os pontos
observados e a reta estimada é pelo método dos mínimos quadrados
ordinários (OLS) – é a que usaremos na disciplina, porém existem diversas
outras maneiras (máxima verossimilhança, MM etc.).
• O OLS minimiza a soma dos quadrados dos resíduos da regressão.
Por que minimizar a soma dos
quadrados dos resíduos e não
apenas a soma dos resíduos?
Rodar uma regressão qualquer no
programa para verificar na prática,
após responder
(predict uchapeu, residuals)

Regressão Simples
• Resumo dos resíduos da estimação do beta:
Observação Resíduos
1 0.00241
2 0.001299
3 -0.0219
... ...
57 9.07E-05
58 -0.02472
59 0.001681
60 -0.0027
Soma ZERO

Regressão Simples
• Antes de vermos a “matemática” de fato, vamos a um exemplo e outros
detalhes sobre a regressão simples (desconsideraremos aqui os
pressupostos, problemas relacionados a séries temporais etc), iniciando
com um exemplo básico.

Regressão Simples
• Vamos estimar a equação de regressão com os dados do arquivo “CAPM-
EXEMPLO Aula 1 de regressão”.
• Usar o comando para o gráfico de dispersão: twoway (scatter var1 var2),
ytitle(Excesso de retorno do fundo) xtitle(Excesso de retorno do RM)
• Para verificar a reta: scatter var1 var2 || lfit var1 var2
• Usar o comando para a regressão: regress var1 var2
Outra forma de se chegar ao
mesmo resultado:
reg var1 var2
predict fitted
scatter var1 var2 || line fitted var2

Regressão Simples
10203040
Excessoderetornodofundo
5 10 15 20 25
Excesso de retorno do RM

Regressão Simples
_cons -1.736649 4.113993 -0.42 0.701 -14.82921 11.35591
var2 1.641745 .2647783 6.20 0.008 .7991029 2.484388
var1 Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 418.959999 4 104.74 Root MSE = 3.1794
Adj R-squared = 0.9035
Residual 30.325994 3 10.1086647 R-squared = 0.9276
Model 388.634005 1 388.634005 Prob > F = 0.0085
F( 1, 3) = 38.45
Source SS df MS Number of obs = 5
. regress var1 var2
Atenção especial ao R² e ao n

Regressão Simples
1. Qual é o beta do seu fundo de investimento? Faça uma brevíssima
análise desse beta, o fundo é arriscado ou não, muito ou pouco?
2. O que o alfa quer dizer, estatisticamente e economicamente?
3. Baseado no resultado da regressão, se você, como gestor do fundo,
esperar que o Mercado (Rm) tenha um retorno 20% maior do que a Rf
(i.e. PRM), quanto esperar de retorno para o fundo? P.s.: os dados não
foram inputados na planilha sem o símbolo de %, então usem 20.
4. O que podemos perceber analisando os intervalos de confiança?

Linearidade
• Para usarmos o OLS, o modelo precisa ser linear em seus parâmetros (a e
b ), não necessariamente em suas variáveis (y e x).
• Linearidade nos parâmetros quer dizer que a expectativa condicional de Y, E(Y |
Xi), é uma função linear dos parâmetros b. b não está multiplicado, dividido etc
por nenhum outro parâmetro, inclusive.
• Exemplo de regressão linear nos parâmetros (se X=10 os parâmetros continuarão
lineares):
• Exemplo de regressão não linear (sendo X=10 o parâmetro continuará sendo
quadrático):

Linearidade
• Para ter uma ideia sobre a linearidade (na regressão simples), podemos
analisar um gráfico de dispersão. Existem também testes mais formais
(ainda não serão objeto de nosso estudo).
• Usar com os mesmos dados anteriores: graph twoway (lfitci var1 var2)
(scatter var1 var2)
0
1020304050
5 10 15 20 25
var2
95% CI Fitted values
var1

Aplicação com Opitmal Hedge Ratio
1. Abra a planilha “SandPhedge”e calcule o retorno do spot e do future
[100%*ln(p t/p t-1)], criando duas novas variáveis: retfutures retspot;
2. Use o Stata Transfer para transformar o xls em dta;
3. Calcule as descritivas: summarize retfutures retspot, detail;
4. Teste a normalidade: sktest retfutures retspot futures spot;
5. Estime a regressão com retornos (o b nesse caso nos diz a relação de
curto prazo entre essas duas variáveis e o nível ótimo de hedge, no cap.5
veremos mais sobre isso): regress retspot retfutures;
6. Estime a regressão em nível (o b nesse caso nos diz a relação de longo
prazo entre essas duas variáveis): regress spot futures; e
7. Analise as estatísticas descritivas e os resultados da regressão (foque
apenas no que nós já vimos na aula).

www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 25retspot
99% .0904027 .1039119 Kurtosis 4.878594
95% .072562 .0904027 Skewness -.927525
90% .0538131 .0828514 Variance .0020685
75% .0303639 .0809595
Largest Std. Dev. .0454813
50% .0102484 Mean .0027131
25% -.0173611 -.0941102 Sum of Wgt. 134
10% -.0629444 -.113567 Obs 134
5% -.083591 -.1169374
1% -.1169374 -.1880256
Percentiles Smallest
retfutures
. summarize retfutures retspot, detail

www.ccsa.ufpb.br/ppgcc ppgcc@ccsa.ufpb.br 26.
99% .0950707 .1006554 Kurtosis 4.740733
95% .0726626 .0950707 Skewness -.9111044
90% .0535043 .0855615 Variance .0021082
75% .0306905 .0841116
Largest Std. Dev. .0459153
50% .0110173 Mean .0027393
25% -.0179 -.1009502 Sum of Wgt. 134
10% -.062812 -.1165612 Obs 134
5% -.0890618 -.1206102
1% -.1206102 -.1838397
Percentiles Smallest
retspot
99% .0904027 .1039119 Kurtosis 4.878594
95% .072562 .0904027 Skewness -.927525
90% .0538131 .0828514 Variance .0020685

spot 135 0.3482 0.0241 5.77 0.0558
futures 135 0.3802 0.0185 6.05 0.0486
retspot 134 0.0001 0.0040 19.04 0.0001
retfutures 134 0.0001 0.0027 19.88 0.0000
Variable Obs Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
joint
Skewness/Kurtosis tests for Normality
. sktest retfutures retspot futures spot

_cons 6.40e-06 .0002662 0.02 0.981 -.0005203 .0005331
retfutures 1.007291 .0058654 171.73 0.000 .9956887 1.018893
retspot Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total .28039247 133 .002108214 Root MSE = .00308
Residual .00124936 132 9.4649e-06 R-squared = 0.9955
Model .279143109 1 .279143109 Prob > F = 0.0000
F( 1, 132) =29492.60
. regress retspot retfutures

_cons 5.494297 2.27626 2.41 0.017 .9919421 9.996651
futures .9956317 .0018756 530.85 0.000 .991922 .9993415
spot Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 5100262.31 134 38061.659 Root MSE = 4.2533
Residual 2406.03961 133 18.0905234 R-squared = 0.9995
Model 5097856.27 1 5097856.27 Prob > F = 0.0000
F( 1, 133) = .
. regress spot futures

Pressupostos do MCRL
• Os dados de X são observáveis, porém o Y depende também de u, então
precisamos pressupor algumas coisas sobre ele:
Isso apenas é garantido se houver um a no modelo
Testes para heterocedasticidade
Testes para autocorrelação
Pode ser gerado por erros de especificação
Veremos um pouco mais sobre isso em “paineis”
É importante para fazer inferências sobre a população em uma amostra finita

Pressuposto 2
Homocedasticidade Heterocedasticidade
As imagens em português foram retiradas de Gujarati e Porter (2012)

Pressuposto 3

Pressuposto 4

Pressupostos (adicionais)
• Gujarati e Porter (2012, p.89) adicionam dois “pressupostos” além
daqueles apontados por Brooks (2014):

Pressupostos
• Os pressupostos são importantes em qualquer teoria para podermos fazer
com que ela seja testável. Na econometria é do mesmo jeito. Brooks,
Gujarati e outros autores concordam sobre isso. Sempre temos uma saída
para problemas com elas.
• Para uma discussão teórica e prática, vejam os capítulos 10
(multicolinearidade), 11 (heterocedasticidade), 12 (autocorrelação) e 13
(erro de especificação) de Gujarati e Porter (2012). Sobre a normalidade
veja a seção 4.2 do mesmo livro.

Propriedades do OLS
• Considerando que os Pressupostos 1-4 são aplicáveis, o estimador OLS
será BLUE (best linear unbiased estimator).
• “Best” - o estimador OLS tem a menor variância entre os demais
estimadores lineares não viesados (Gauss-Markov).
• “Linear” - é um estimador linear.
• “Unbiased” - Em média, o valor de e será igual ao seu valor real.
• “Estimator” - é um estimador do real valor de b.
$b
$b
$a $b

Consistência do OLS
• Com o aumento da amostra até o infinito, o estimador convergirá ao seu
valor real.
• Para que isso seja verdade, é preciso apenas de dois pressupostos: E(xtut) =
0 e E(ut) = 0.
  00ˆPrlim 

bb
T

Não viesado
• Em média, o valor estimado dos parâmetros será igual ao seu valor real.
• Essa propriedade é mais forte que a anterior, da consistência, porque vale
tanto para amostras pequenas quanto para grandes. A consistência é mais
“assintótica”, para grandes amostras.
• Para que isso seja verdade, também é preciso que E(xtut) = 0.

Eficiência
• Um estimador é eficiente se nenhum outro estimador tiver variância
melhor do que ele. Ou seja, a sua distribuição de probabilidade é pouco
dispersa em torno da média do valor real.

Precisão e o erro-padrão (SE)
• O SE é uma medida de qualidade (precisão) dos nossos parâmetros
estimados.
• Na próxima aula veremos como calcular facilmente pela forma matricial.
• O SE não mostra quão acurado é um determinado coeficiente. Se o SE for
pequeno, o coeficiente é mais propenso a ser preciso, em média.
• s é o desvio padrão dos resíduos.













222
222
2
2
2
1
)(
1
)ˆ(
,
)(
)ˆ(
xTx
s
xx
sSE
xTxT
x
s
xxT
x
sSE
tt
t
t
t
t
b
aO SE depende do x
e do T.
O que acontece
com o SE quando
aumentamos o T?

‘Introductory Econometrics for
Finance’ © Chris Brooks 2002
41
Estimating the Variance of the Disturbance Term
• The variance of the random variable ut is given by
Var(ut) = E[(ut)-E(ut)]2
which reduces to
Var(ut) = E(ut
2)
• We could estimate this using the average of :
• Unfortunately this is not workable since ut is not observable. We can use the
sample counterpart to ut, which is :
But this estimator is a biased estimator of 2.
2
tu
 22 1
tu
T
s
 22
ˆ
1
tu
T
stuˆ

‘Introductory Econometrics for
Finance’ © Chris Brooks 2002
42
Estimating the Variance of the Disturbance Term
(cont’d)
• An unbiased estimator of  is given by
where is the residual sum of squares and T is the sample size.
Some Comments on the Standard Error Estimators
1. Both SE( ) and SE( ) depend on s2 (or s). The greater the variance s2, then the
more dispersed the errors are about their mean value and therefore the more
dispersed y will be about its mean value.
2. The sum of the squares of x about their mean appears in both formulae.
The larger the sum of squares, the smaller the coefficient variances.
2
ˆ2



T
u
s t
 2
ˆtu

Testes de hipóteses
• Com a normal padrozinada nós testamos hipóteses com relação a e da
seguinte maneira:
• Porém não conhecemos a variância dos 2 parâmetros, então usamos a t
com T-2 graus de liberdade:
$a $b
 
 1,0~
var
ˆ
N
a
aa 
 
 1,0~
var
ˆ
N
b
bb 
2~
)ˆ(
ˆ


Tt
SE a
aa
2~
)ˆ(
ˆ


Tt
SE b
bb

• Passos:
1. Estimam-se os parâmetros e os seus respectivos SE
2. Calcula a estatística do teste ( ), em que b* é o valor que se quer
testar.
• Mantendo o numerados constante, o que acontece quando o SE é
pequeno? Teste: numerador = 1 e SE = 1, depois SE = 0,5.
3. O nível de significância deve ser escolhido (quanto maior for a
amostra, menor deverá ser esse nível 1, 5 ou 10% - o SE reduz quando
o T aumenta, levando a um aumento do t testado) e o valor tabulado
deverá ser coletado.
4. Compare o t tabulado com o calculado, de modo a rejeitar ou não
rejeitar a H0.
test statistic
SE

$ *
( $)
b b
b

• Use a regressão abaixo e teste a hipótese de que b = 1 e que a = 0.
Considere T = 20 e use o nível de significância de 1 e 10%. Os SE estão nos
parênteses.
)2561.0(
5091.0
)38.14(
3.20ˆ tt xy 

• Brooks (2014, p.105) chama atenção ao uso do p-value fixo:
(…) one potential problem with the use of a fixed (e.g. 5%) size
of test is that if the sample size is sufficiently large, any null
hypothesis can be rejected. This is particularly worrisome in
finance, where tens of thousands of observations or more are
often available. (…) the standard errors reduce as the sample
size increases, thus leading to an increase in the value of all t-
test statistics. (…) some econometricians have suggested that a
lower size of test (e.g. 1%) should be used for large samples
(…).

Caso especial: t-ratio
• É o que nós frequentemente testamos na regressão para avaliar se os
coeficientes são significativos. Eles “têm” que ser diferentes de zero, então
precisamos rejeitar a H0 desse teste.
• Considerando T = 15 e um nível de significância de 5%, teste a
significância dos parâmetros abaixo:

Caso especial: t-ratio
• Verifique se os coeficientes abaixo são significativos ao nível de 5%,
considerando que a amostra contém 134 observações.
_cons 6.40e-06 .0002662 0.02 0.9
retfutures 1.007291 .0058654 171.73 0.0
retspot Coef. Std. Err. t P>|

O Alfa de Jensen
• Considere que existe uma regra de bolso que diz que para df > 25, com
nível de significância de 5% (bilateral), o valor crítico é + - 2 (Brooks, 2014).
• Essa foi a equação usada por Jensen (1968):
• Quantos “Alfas de Jensen” foram significativos e o que isso quer dizer?

O Alfa de Jensen
• Faça a mesma análise para o gráfico abaixo. O que muda, por que muda e
quais cuidados temos que ter nas nossas pesquisas para não tirar
conclusões erradas?

O nível de significância exato
• Usamos o p-value (valor de prova) para facilitar nossa vida.
• Supondo que um coeficiente tenha p-valor de 0,12, tome a decisão de
rejeitar ou não a H0 de que ele é igual a zero:
• Ao nível de 5%?
• O que podemos dizer sobre os dados abaixo?

Teste de Wald
• Os programas normalmente nos dão a t-ratio, porém às vezes queremos
testar outras hipóteses. Para não fazer de forma braçal, podemos adaptar
usando o teste de Wald.
• Teste com a sandphedge ajustada se o coeficiente “futures” e “retfutures”
pode ser considerado igual a 1.
• Procedimentos:
• regress retspot retfutures
• test _b[retfutures]=1
• Faça o mesmo para “futures” e compare os resultados.

Estimando um CAPM
1. Use os dados da planilha “CAPM”.
2. Calcule o retorno mensal composto do S&P500 (SANDP) e da Microsoft.
3. A Rf (USTB3M) está em termos anuais e os retornos das ações em termos
mensais. Todas as variáveis devem estar na mesma base. Para facilitar,
transformaremos a Rf em mensal, dividindo-a por 12 (isso não é o mais
correto a se fazer, pelos juros compostos).
4. Subtraia a Rf do retorno da Microsoft e do retorno do S&P500. Agora
temos as variáveis que serão usadas, o retorno acima da Rf.
5. Usar o comando para o gráfico de dispersão: twoway (scatter REMICRO
RESP500), ytitle(Excesso de retorno da ação) xtitle(Excesso de retorno do
Mercado).
6. Usar o comando para a regressão: regress REMICRO RESP500.
1. Teste se o b deste CAPM é igual a 1: test _b[RESP500]=1.

Analisando a expectativa de vida
• sysuse uslifeexp
• sysdescribe uslifeexp
• Faça os exercícios abaixo, usando regressões simples:
1. Analise o efeito do tempo na expectativa de vida, em geral, das pessoas
dos EUA: reg le year
2. Compare o efeito do tempo na expectativa de vida dos homens e depois
das mulheres. Compare os dois.
3. Compare agora os homens brancos com os homens negros.
4. Compare agora as mulheres brancas com as negras.
5. Em geral, para quem o efeito do tempo tem sido mais benéfico? Busque
alguma justificativa.

PRÓXIMA AULA
• Fiquem atentos aos resumos do capítulo da aula. Na próxima aula será o
capítulo 4.

Questões
• O que é e para que serve a correlação canônica?
• Diferencie estimador (estimator) de estimativa (estimate).
• O que diz o Teorema de Gauss-Markov?
• Um estimador que é consistente pode ser viesado em amostras pequenas.
Porém todos os estimadores não viesados são consistentes? Justifique.
• Refaça o exercício do slide 45 com o método do intervalo de confiança. A
conclusão deverá ser a mesma.
• Leia a seção 3.11 e 3.12 (a partir da página 113), entenda e resuma as duas
em no máximo 1 página, o que foi feito e o que foi encontrado?
• Faça o mesmo com a seção 3.13, porém em no máximo 2 páginas.
• Faça o exercício do slide 51, porém com a GE e compare os resultados.

Recomendação de leitura
• KENNEDY, Peter E. Oh no! I got the wrong sign! What should I do? The
Journal of Economic Education, v. 36, n. 1, p. 77-92, 2005.
• MCHUGH, Mary L. Standard error: meaning and
interpretation. Biochemia Medica, v. 18, n. 1, p. 7-13, 2008.
• http://contabilidademq.blogspot.com.br/2016/04/oh-nao-meus-
coeficientes-da-regressao1111.html

Para ter acesso a mais conteúdos, acesse:
• Blogs
www.ContabilidadeMQ.blogspot.com
www.FinancasAplicadasBrasil.blogspot.com
• Facebook:
www.facebook.com/ContabilidadeMQ
• Twitter:
www.twitter.com/ContabilidadeMQ
• YouTube:
www.youtube.com/FelipePontes16
58

Revisão de matrizes e introdução à regressão linear simples

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Revisão de matrizes e introdução à regressão linear simples

Semelhante a Revisão de matrizes e introdução à regressão linear simples (20)

Mais de Felipe Pontes

Mais de Felipe Pontes (20)

Revisão de matrizes e introdução à regressão linear simples