Este documento fornece um resumo do curso "Introdução aos Métodos Quantitativos Aplicados à Contabilidade" ministrado na Universidade Federal da Paraíba. O objetivo do curso é introduzir conceitos básicos de métodos quantitativos usados em pesquisas na área de contabilidade e finanças. O conteúdo inclui estatísticas descritivas, coleta e organização de dados financeiros, inferência estatística, regressão linear e exercícios finais.
Política de Dividendos e Modelo de Desconto de Dividendos
Curso introdução aos métodos quantitativos aplicados à contabilidade
1. UNIVERSIDADE FEDERAL DA PARAÍBA
Introdução aos Métodos Quantitativos
Aplicados à Contabilidade
grggggggggggggggggggg
ggggggggg
Luiz Felipe de Araújo Pontes Girão
Objetivo do curso: introduzir os conceitos básicos de métodos quantitativos
usados em pesquisas na área de contabilidade e finanças.
Conteúdo: Dicas iniciais. Revisão de algumas estatísticas descritivas. Coleta e
organização de dados financeiros. Inferência e testes de hipóteses. Modelo
clássico de regressão linear. Exercício Final. Considerações finais.
2. Felipe Pontes
www.contabilidademq.blogspot.com
Comentário inicial
• Esse é um curso básico e resumido do curso que dou no mestrado de
Métodos Quantitativos I, focando no uso do Stata para análise dos dados.
• Apesar de o foco deste curso ser prático, optei por deixar muitos slides
teóricos para facilitar o estudo posterior por parte de vocês.
• Todavia, mesmo tendo o resumo da teoria nos slides, não deixem de estudar
pelos melhores livros e artigos.
• Materiais adicionais do curso:
https://www.dropbox.com/sh/opgiwpjmfd72g99/AACbyTCHFzf7Il82eguaRlZw
a?dl=0
2
3. Felipe Pontes
www.contabilidademq.blogspot.com
Disponibilização dos slides
• Os slides estão disponíveis no Blog Contabilidade & Métodos
Quantitativos:
www.ContabilidadeMQ.blogspot.com
• Curso na UFPA (dez/2017):
http://contabilidademq.blogspot.com.br/2017/10/curso-de-metodos-
quantitativos.html
3
4. Felipe Pontes
www.contabilidademq.blogspot.com
Uma propaganda antes de iniciar
• Conheça alguns projetos dos quais eu faço parte na UFPB:
1. Programa de Pós-Graduação em Contabilidade (Mestrado e Doutorado, com
conceito 4):
www.ccsa.ufpb.br/ppgcc
2. Revista Evidenciação Contábil & Finanças (B3 no Qualis CAPES, com prazo-
meta de resposta final aos trabalhos de 90 dias):
periodicos.ufpb.br/index.php/recfin
3. Projeto de Extensão Sala de Ações (simulação de uma corretora de valores –
agende visitas, palestras, cursos e “consultorias” pelo Blog):
salaacoes.blogspot.com.br
4
6. Felipe Pontes
www.contabilidademq.blogspot.com
Tópico 1: Dicas Iniciais
• Esse tópico é um resumo de uma palestra maior sobre pesquisa em
contabilidade.
• Para acessar o material completo da palestra “Pesquisa em
Contabilidade: Dicas e Problemas Comuns”, clique no seguinte link:
https://www.slideshare.net/felipepontes16/pesquisa-em-contabilidade-
dicas-e-falhas-comuns
6
7. Felipe Pontes
www.contabilidademq.blogspot.com
Por que pesquisar?
• Pensem por 10 segundos...
• Dois motivos fundamentais:
1. Resolver problemas práticos ou teóricos
Como chegar no valor de uma empresa ou estimar o valor goodwill ou do capital intelectual (no meu
primeiro ano de graduação eu tentei fazer isso...)
2. Criar ou testar teorias
HME Finanças Comportamentais // Testes de análise técnica e
fundamentalista
8. Felipe Pontes
www.contabilidademq.blogspot.com
O que fazer para ter uma boa pesquisa?
1. Ter uma ideia viável;
2. Conhecer outros trabalhos que tiveram ideias semelhantes à
sua;
3. Traçar os objetivos da pesquisa;
4. Ter uma teoria que sustente a sua ideia e seus resultados
futuros;
5. Ter uma boa metodologia da pesquisa.
- Encontrei um trabalho muito parecido com a minha ideia, o que fazer?
A LEITURA É ESSENCIAL
9. Felipe Pontes
www.contabilidademq.blogspot.com
Criação e lapidação da ideia de pesquisa
9
Como identificar uma questão de
pesquisa?
http://contabilidademq.blogspot.c
om.br/2016/12/como-identificar-
uma-questao-de-pesquisa.html
Tenho uma ideia geral para a
monografia, mas não sei como
especificar: o que fazer?
http://contabilidademq.blogspot.c
om.br/2013/09/tenho-uma-ideia-
geral-para-monografia.html
A ideia da pesquisa é a
parte mais difícil
Mas lapidá-la
não é tão fácil
LEITURA,
MUITA COISA
JÁ FEITA,
RACIOCÍNIO,
FOCO, PERSISTÊNCIA,
CONVERSA,
PENSAR, PENSAR...
10. Felipe Pontes
www.contabilidademq.blogspot.com
Foco e persistência: características essenciais
10
Sobre o foco no trabalho e as
qualidades do pesquisador
http://contabilidademq.blogspot.c
om.br/2015/12/sobre-o-foco-no-
trabalho-e-as.html
Andrew Wiles deixou de participar
de eventos, continuou apenas com
suas atividades obrigatórias em
Princeton, trabalhou muito em
casa por muitos anos para resolver
o problema de Fermat.
Ele teve FOCO e PERSISTÊNCIA
para chegar onde queria.
A ideia da pesquisa é a
parte mais difícil
Mas lapidá-la
não é tão fácil
LEITURA,
MUITA COISA
JÁ FEITA,
RACIOCÍNIO,
FOCO, PERSISTÊNCIA,
CONVERSA,
PENSAR, PENSAR...
11. Felipe Pontes
www.contabilidademq.blogspot.com
Metodologia da pesquisa
O que é básico na seção da metodologia:
1. População e amostra;
2. Coleta e tratamento dos dados;
3. Definição das variáveis (proxies)*;
4. Definição dos modelos estatísticos*; e
5. Definição dos testes das hipóteses (em minha
opinião as hipóteses em si devem estar no
referencial teórico).
12. Felipe Pontes
www.contabilidademq.blogspot.com
Não force uma metodologia, mas saia um pouco do comum
Em contabilidade nós costumamos
a ficar muito presos à análise de
regressão, ANOVA, teste t,
distribuição normal etc...
Às vezes até forçadamente: vamos
fazer um artigo usando equações
estruturais?
Às vezes devemos buscar
metodologias de outras áreas para
resolver os nossos problemas,
como a Análise de Redes Sociais
para analisar fraudes.
http://contabilidademq.blogspot.c
om.br/2012/03/analise-de-redes-
sociais.html
-0.06-0.04-0.02
0.000.02
ln(COBeps)
0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1
13. Felipe Pontes
www.contabilidademq.blogspot.com
Discuta sobre o seu artigo com o maior número de pessoas quanto for possível!
Por que nós não temos muito destaque na pesquisa
internacional em contabilidade e finanças?
Eu chutaria que um dos principais motivos é a falta
de debate e a rapidez com que publicamos os artigos
em revistas.
Por que não existe debate entre os pesquisadores
no Brasil?
http://contabilidademq.blogspot.com.br/2013/05/p
or-que-nao-existe-debate-entre-os.html
1) Os congressos aprovam muitos trabalhos, o que
limita o tempo das discussões;
2) Os congressos, em geral, só aceitam artigos
inéditos;
3) Não há muita conversa entre pesquisadores;
4) Etc;
14. Felipe Pontes
www.contabilidademq.blogspot.com
Ajude-nos a te ajudar: seja objetivo!
Philip Low é o criador do iBrain,
cuja ideia surgiu na sua tese de
doutorado de 1 página,
reconhecida como a menor tese
da história.
Em busca da objetividade nos
trabalhos científicos
http://contabilidademq.blogspot.c
om.br/2015/02/em-busca-da-
objetividade-nos-trabalhos.html
Philip Low e Stephen Hawking
15. Felipe Pontes
www.contabilidademq.blogspot.com
Busque referências e, se puder, escreva em inglês
Em geral, os melhores trabalhos estão publicados em inglês. E
não é porque é “chique”, é pelo alcance.
Se você quer escrever um artigo muito bom e quer que muitas
pessoas leiam, você escreverá em inglês.
Algumas dicas para leitura em língua estrangeira: começar,
Mônica’s Gang, Twitter, MEO, não traduzir tudo, seriados etc.
http://contabilidademq.blogspot.com.br/2013/10/algumas-
dicas-para-leitura-em-lingua.html
Dicas de escrita
http://contabilidadefinanceira.tumblr.com/post/130292069728
/writing-scientific-articles-like-a-native-
english?og=1&fb_action_ids=1211419342207161&fb_action_ty
pes=tumblr-feed%3Apost
16. Felipe Pontes
www.contabilidademq.blogspot.com
Como acompanhar a literatura da sua área
1) Cadastro de email nas principais revistas da
área;
2) Alertas no Google Acadêmico para os
principais autores da área: alerta para novos
artigos e novas citações;
3) Alertas no Google normal e no acadêmico
para o tema da pesquisa; e
4) Seguir os principais autores da área nas
redes sociais, como Facebook, ResearchGate
(RG), Linkedin etc. Eu tenho gostado muito da
RG. Recomendo que façam uma conta por lá
também.
http://contabilidademq.blogspot.com.br/201
6/07/como-acompanhar-as-publicacoes.html
17. Felipe Pontes
www.contabilidademq.blogspot.com
Comunicação entre os usuários
• NOSSA PRINCIPAL FALHA (em minha opinião!)!
• Nós escrevemos para quem? Para os usuários? Para nós mesmos? Para
os nossos pares?
• Sugestões:
– Devemos participar mais de eventos “técnicos”, escrevendo e apresentando com
uma linguagem que seja utilizada pelo mundo fora da Universidade.
– Escrever textos curtos e diretos sobre nossas pesquisas (e.g. USP-RP).
– Escrever blogs pessoais e divulgar seus textos de modo acessível em redes
sociais.
– Etc.
18. Felipe Pontes
www.contabilidademq.blogspot.com
Atenção às normas das Revistas
Na RECFin eu não vou rejeitar um artigo
porque está fora das normas (no máximo
enviarei um email solicitando o ajuste),
porém a não observância disso demonstra
descuido por parte dos autores.
“Se eles não cuidaram disso, talvez não
tenham tido cuidado com o resto.”
Tenho recebido muitas submissões fora das
normas:
1) Verifique as “diretrizes aos autores” antes
de qualquer submissão;
2) Faça mais uma revisão ortográfica e
gramatical;
3) Veja o estilo dos artigos publicados na
última edição da revista, como eles estão
escritos e formatados; e
4) Não tenha receio de conversar
com o Editor da Revista.
19. Felipe Pontes
www.contabilidademq.blogspot.com
Referências adicionais para o tópico
Todo doutorando e mestrando deveria ler os artigos abaixo (antes mesmo de
ingressar no Programa):
• BRADBURY, Michael E. Why you don’t get published: an editor’s
view. Accounting & Finance, v. 52, n. 2, p. 343-358, 2012.
• COCHRANE, John H. Writing tips for Ph.D. students. University of Chicago,
2005.
• EVANS, John Harry et al. Points to Consider When Self‐Assessing Your
Empirical Accounting Research. Contemporary Accounting Research, v. 32, n.
3, p. 1162-1192, 2015.
21. Felipe Pontes
www.contabilidademq.blogspot.com
Tópico 2: Revisão de Algumas Estatísticas Descritivas
• O material completo usado nas aulas poderá ser encontrado no
seguinte link:
• http://contabilidademq.blogspot.com.br/2017/03/materiais-da-aula-
de-estatisticas-descritivas-stata.html
21
22. Felipe Pontes
www.contabilidademq.blogspot.com
O que é econometria?
• O conceito está relacionado com mensuração em economia (BROOKS,
2014).
• Em nosso caso, os Métodos Quantitativos Aplicados estão relacionados
com a econometria financeira, que aplica ferramentas estatísticas para
auxiliar (testar teorias) na resolução de problemas contábeis e
financeiros.
• Exemplos de aplicações recentes no Brasil:
– Verificar como são evidenciadas as informações gerenciais publicadas na nota
explicativa de informações por segmento nas empresas brasileiras (AILON et al.,
2015).
– Verificar a influência da convergência internacional na suavização dos lucros
(KLAN; BEUREN, 2015).
– Identificar os fatores determinantes da qualidade dos trabalhos dos auditores
nas instituições bancárias brasileiras (DANTAS; MEDEIROS, 2015).
– Etc.
22
23. Felipe Pontes
www.contabilidademq.blogspot.com
Tipos de dados
• De forma ampla, nós trabalhamos com 3 tipos de dados.
1. Séries temporais
– Qual é o efeito do anúncio do pagamento de dividendos no preço da ação de uma
companhia? (e.g. poderia fazer em 10 anos)
2. Cross-section
– Qual é o efeito da cobertura dos analistas no nível de assimetria informacional? (e.g.
das empresas brasileiras em 2017)
– Geralmente os dados de pesquisas gerenciais e de questionários são assim
3. Dados em painel
– Qual é o efeito da cobertura dos analistas no nível de assimetria informacional ao
longo do tempo?
23Como cada um deles se apresenta em uma planilha?
Isso é importante, na hora de preparar seus dados
para análise
24. Felipe Pontes
www.contabilidademq.blogspot.com
Retornos na modelagem financeira
• Por alguns problemas estatísticos, é preferível trabalhar com retornos,
no lugar de preços. Além disso, o retorno é uma medida padronizada de
análise (preço é um conjunto de informações).
• Como calcular o retorno:
• O p é o “preço puro” ou o “preço ajustado aos proventos”?
• Se usarmos o “preço puro”, subestimares o retorno total obtido pelo
investimento naquele ativo!
24
%100
1
1
t
tt
t
p
pp
R
Simples: Contínuo:
%100ln
1
t
t
t
p
p
R
25. Felipe Pontes
www.contabilidademq.blogspot.com
Retornos na modelagem financeira
• Ignorar os dividendos, no longo prazo, implicará em favorecimento das
“growh stocks” (que geram altos ganhos de capital), em detrimento das
“income stocks” (que pagam muitos dividendos).
25
26. Felipe Pontes
www.contabilidademq.blogspot.com
Formação de um modelo
26
Teoria ecômica, contábil ou financeira
Formulação de um modelo estimável
Coleta dos dados
Estimação do modelo
O modelo é estatisticamente adequado?
Não Sim
Reformule o modelo Interprete o modelo
Use para a análise
Exemplo:
Modelo de Ohlson (1995)
Adaptado de Brooks (2014)
27. Felipe Pontes
www.contabilidademq.blogspot.com
O que é “estatística descritiva”?
• É uma parte muito importante da nossa pesquisa, que é muitas vezes
negligenciada em nossos artigos (o que eu costumo fazer para não
retirar as descritivas e não consumir espaço com gráficos e tabelas?).
• Estatística inferencial (indutiva) x Estatística descritiva
• Alguns bons journals de Psicologia estão “eliminando” a estatística
inferencial e cobrando apenas uma boa estatística descritiva. Veja aqui.
27
28. Felipe Pontes
www.contabilidademq.blogspot.com
Grupos de estatísticas descritivas
• Segundo Fávero et al. (2014), existem 4 grupos:
28
1) Medidas de tendência
2) Medidas de dispersão
3) Assimetria
4) Curtose
A assimetria normal é ZERO e a curtose
normal é TRÊS
29. Felipe Pontes
www.contabilidademq.blogspot.com
Que tipo de informações podemos ter?
• Vejamos aqui uma análise descritiva e que tipo de informações
podemos tirar dela.
• Existem evidências de negociações anormais no caso da JBS?
• http://contabilidademq.blogspot.com.br/2017/10/existem-evidencias-
de-negociacoes.html
29
30. Felipe Pontes
www.contabilidademq.blogspot.com
Tendência central
Média:
• A média é a medida mais conhecida de tendência central e é conhecida
como o valor “típico” de uma série.
• A média pode ser influenciada por valores extremos (exemplos?!) e por
isso poderá não representar a maioria dos dados, cuidado! (e.g. o MCRL
usa valores médios, a regressão quantílica não).
30
n
X
n
XXX
X
n
i
i
n
121 ...
31. Felipe Pontes
www.contabilidademq.blogspot.com
Tendência central
Mediana:
• É o valor que divide um rol de dados no meio.
• É mais robusta (menos sensível a outliers) do que a média.
• Qual é a mediana nos dois casos abaixo?
3 – 3 – 3 – 6 – 5 – 7 – 7
3 – 3 – 3 – 6 – 5 – 7– 7 – 7
31
O Boletim Focus usa a mediana (bom exemplo de estatísticas descritivas)
33. Felipe Pontes
www.contabilidademq.blogspot.com
Dispersão
• A análise apenas da tendência central não nos diz muita coisa. Duas
amostras podem ter a mesma média, mas podem ter perfis diferentes
por causa da dispersão dos dados em torno da média.
• A análise da dispersão é particularmente importante em Finanças
(lembram do Big Bang da Moderna Teoria Financeira?).
• Quanto maior a dispersão dos retornos de um ativo em torno de sua
média, mais arriscado ele será.
33
34. Felipe Pontes
www.contabilidademq.blogspot.com
Amplitude (range):
• É a medida mais simples e muito sensível aos outliers (Maior obs –
Menor obs).
Variância:
Desvio-padrão:
• Para facilitar a análise, padroniza-se a variância, para que ela volte à
forma de mensuração original, extraindo a raiz quadrada da variância.
1
)(
1
2
2
n
XX
s
n
i
i
Dispersão
34
As duas últimas são sensíveis aos outliers,
porém menos que a amplitude
Degrees of freedom
correction – por
estarmos usando uma
amostra
Calculem para os dados do slide 26 - Excel
38. Felipe Pontes
www.contabilidademq.blogspot.com
Assimetria e Curtose
• Assimetria (Skewness): define a forma da distribuição e define o quanto
ela é não simétrica em relação à média.
38
Por ser sensível a valores extremos, a média “puxa” a
distribuição para o seu lado.
40. Felipe Pontes
www.contabilidademq.blogspot.com
Assimetria e Curtose
• Curtose (Kurtosis): mede o “peso” das caudas da distribuição e quão
“pontiaguda” em torno da média a série é.
• Uma distribuição normal tem coeficiente de curtose igual a 3 e excesso
de curtose igual a 0 (K - 3) (BROOKS, 2014).
40
www.vosesoftware.com
41. Felipe Pontes
www.contabilidademq.blogspot.com
Assimetria e Curtose
41
mvpprograms.com www.signalfinancialgroup.com
Existem alguns testes formais que usam esses dois momentos
para testar se a distribuição é normal ou não.
Maior prob. de ter valores
próximos da média e
outliers. Coef > 0
Menor prob. de ter
valores próximos da média
e de ter outliers . Coef < 0
42. Felipe Pontes
www.contabilidademq.blogspot.com
Medidas de associação
• As 4 medidas anteriores são importantes para resumir os dados de
forma isolada, porém é importante analisá-las em conjunto.
• Em finanças, essas medidas são particularmente importantes na análise
do risco e do retorno (Big Bang).
• É também importante efetuar essa análise prévia antes da análise de
regressão, para evitar alguns problemas ou ter ideia do que está por vir.
42
46. Felipe Pontes
www.contabilidademq.blogspot.com
Variáveis:
NI = lucro líquido
ΔNIit= variação no NI de t-1 a t
ΔNIit-1 = variação no NI de t-2 a t-1
DΔNIit-1 = dummy que assume 1 quando ΔNIit-1
negativa
PLit = PLit – NIit
La
it = Niit – CPP* Plit-1
pit = preço da ação (cuidado com a data)
OBS: Todas as variáveis são ponderadas pelo
Ativo total de t-1.
COLETA DE DADOS FINANCEIROS
I. Visão geral da Economatica®;
II. Inclusão de filtros;
III. Seleção das informações contábeis e de mercado:
i. Utilizaremos o modelo Ball e Shivakumar (2007) – BSm e uma adaptação do
modelo de Ohlson (1995) - Om, considerando o custo do capital próprio (CPP)
igual a 12%, a título de exemplo.
ii. BSm: ΔNIit = α0 + α1DΔNIit-1 + α2ΔNIit-1 + α3ΔNIit-1* DΔNIit-1 + εi
iii. Om: pit = α0 + β1PLit + β2La
it + εit
46
Salvaremos cada ano em uma
aba da planilha!
47. Felipe Pontes
www.contabilidademq.blogspot.com
COLETA DE DADOS FINANCEIROS
• Nesse link (http://goo.gl/ZW7DdH) vocês encontrarão o material
completo com o passo a passo e os printscreens das telas.
• Existem bases de dados gratuitas também:
– Fundamentus: http://www.fundamentus.com.br
– Pacote do R para coletar informações financeiras trimestrais:
http://contabilidademq.blogspot.com.br/2017/11/pacote-no-r-para-coletar-
itrs.html
47
48. Felipe Pontes
www.contabilidademq.blogspot.com
ORGANIZAÇÃO DOS DADOS
• Empilhamento dos dados para a montagem do painel (matriz) (já que não
estamos com acesso às bases na sala, vamos criar uma base com dados para
os anos de 2013 a 2015, depois seguimos os passos abaixo):
1. Criar um código de identificação (ID) para cada empresa. É importante que seja
numérico, pois é aceito na maior parte dos softwares. Ou você pode fazer isso direto
no Stata;
2. Criar uma coluna em cada aba da planilha referente ao seu ano;
3. Após efetuar os procedimentos 1 e 2 em ambas, realiza-se o empilhamento dos dados;
4. Para evitar maiores problemas (supondo o uso do GRETL), mantenha na planilha
apenas as variáveis de interesse – retirando as colunas/vetores com letras;
5. Retire também as observações sem valores (alguns softwares fazem isso
automaticamente).
48
49. Felipe Pontes
www.contabilidademq.blogspot.com
ORGANIZAÇÃO DOS DADOS
• Separação dos grupos para testes de médias.
• Passos:
1. Em uma coluna inserimos as observações da nossa variável de interesse; e
2. Inserimos os códigos que diferenciam os grupos na coluna do lado.
• Exemplo:
49
Variável a ser testada (X1) Grupo
12 1
10 1
12 1
9 2
8.5 2
9 2
Ver também o arquivo “Exemplo teste de
média - variações no caixa-meta”
51. Felipe Pontes
www.contabilidademq.blogspot.com
Tópico 4: Inferência e Testes de Hipóteses
• O material completo usado nas aulas poderá ser encontrado no
seguinte link:
• http://contabilidademq.blogspot.com.br/2017/03/inferencia-estatistica-
stata-materiais-da-aula.html
51
53. Felipe Pontes
www.contabilidademq.blogspot.com
Que tipo de informação a inferência nos dá?
• Vejamos mais uma vez o caso das ações da JBS:
• Explorando mais algumas evidências sobre o caso de “insider trading”
na JBS.
• http://contabilidademq.blogspot.com.br/2017/10/explorando-mais-
algumas-evidencias.html
53
54. Felipe Pontes
www.contabilidademq.blogspot.com
Hipótese de pesquisa x hipótese estatística
• A hipótese estatística é aquela que utilizamos nos testes estatísticos
(SIC!), enquanto que a de pesquisa é formulada a partir da teoria que
utilizamos como base para o nosso artigo.
• Exemplos:
– H0: p = 0 (hipótese nula)
– H1: p ≠ 0 (hipótese alternativa)
– H0: não houve uma melhoria na qualidade das informações contábeis após a
convergência contábil internacional
– H1: houve uma melhoria na qualidade das informações contábeis após a
convergência contábil internacional
54
Nós REJEITAMOS ou NÃO REJEITAMOS as hipóteses
Uma pode ser usada para testar a outra
55. Felipe Pontes
www.contabilidademq.blogspot.com
Teste de hipóteses e tipos de erros
55
Fonte:
Scientific Illustration for the Research
Scientist | somersault18:24
Quanto maior for o a, menor
será a chance do Erro do
Tipo I acontecer
57. Felipe Pontes
www.contabilidademq.blogspot.com
Testes de hipóteses
Definição do p-value: (…) is the probability under a specified statistical model
(hipótese nula) that a statistical summary of the data (for example, the sample mean
difference between two compared groups) would be equal to or more extreme than its
observed value.
• Além do p, é importante verificar o size effect (R², diferença entre as médias e as
categorias, tamanho dos coeficientes) e o intervalo de confiança.
Statistical significance is the least interesting thing about the results. You should describe the results
in terms of measures of magnitude –not just, does a treatment affect people, but how much does it
affect them.
-Gene V. Glass1
The primary product of a research inquiry is one or more measures of effect size, not P values.
-Jacob Cohen2
• Adicionalmente, veja o critério M.A.G.I.C. (MUITO IMPORTANTE AVALIAR ISSO NOS
ARTIGOS!)
57
Baseado em Wasserstein e Lazar (2016)
61. Felipe Pontes
www.contabilidademq.blogspot.com
Testes de hipóteses
• Wasserstein e Lazar (2016) concluem o artigo da seguinte forma
(adaptado por mim):
Uma boa prática estatística, como um componente essencial da boa prática
científica, deve enfatizar:
1. Princípios de uma boa metodologia
2. Uma variedade de descrições gráficas e numéricas dos dados (costumamos
fazer testes de robustez/sensibilidade)
3. Entendimento do fenômeno em estudo (quem tem teoria tem tudo!)
4. Interpretação dos resultados com o contexto da pesquisa (teoria, ambiente
informacional, regulação etc)
5. Full disclosure
6. Entendimento lógico e quantitativo para interpretar o que a análise dos dados
quer dizer (a rejeição da hipótese pode ser devida ao size effect ou sampling
error, mas o p-value não nos diz nada sobre isso, apenas rejeita a H0)
7. Nenhum single index (a exemplo do p-value) deve substituir a razão científica.
61
p-hacking
62. Felipe Pontes
www.contabilidademq.blogspot.com
• Na prática, os softwares já nos dão o p-value.
O que podemos inferir a partir dos resultados apresentados?
lnvm 394 0.4364 0.1047 3.25 0.1971
Variable Obs Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
joint
Skewness/Kurtosis tests for Normality
. sktest lnvm
valor_de_m~o 394 0.0000 0.0000 . 0.0000
Variable Obs Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
joint
Skewness/Kurtosis tests for Normality
. sktest valor_de_mercado
Testes de hipóteses
62
Pr(Skewness) H0: Assimetria é
igual à de uma distribuição
normal
Pr(Kurtosis) H0: Curtose é
igual à de uma distribuição
normal
Joint H0: em conjunto, a
assimetria e curtose são iguais à
de uma normal
Sktest é baseado em D’Agostino, Belanger, and D’Agostino (1990)
63. Felipe Pontes
www.contabilidademq.blogspot.com
Testes de hipóteses
PARAMÉTRICOS
• Utilizamos esses testes quando atendemos aos pressupostos da
normalidade e da homocedasticidade, basicamente.
• Existem autores que dizem que em amostras grandes (maiores que 30,
50, 100, depende do autor – já vi 10!) podemos pressupor a
normalidade (PESTANA; GAGEIRO, 2009).
• No caso da ocorrência da heterocedasticidade, podemos estimar o teste
robusto em alguns casos (e.g. ANOVA de Welch).
63
É preciso atribuir códigos numéricos aos grupos – ver o arquivo
“Exemplo (QIC)”
64. Felipe Pontes
www.contabilidademq.blogspot.com
Testes de hipóteses
• Para testar médias, precisamos converter a diferença entre as médias
de duas amostras em termos de desvio padrão.
• Para saber se essa diferença amostral é estatisticamente significativa
(se é uma diferença real e não é apenas um erro amostral), é preciso
estabelecer um nível de significância (geralmente 5% na nossa área)
e testar contra o z tabelado.
ppgcc@ccsa.ufpb.br
64
z =
𝑋1 − 𝑋2
𝜎 𝑋1−𝑋2
65. Felipe Pontes
www.contabilidademq.blogspot.com
Testes de hipóteses
Passos para o teste de médias (H0: m1 = m2):
• 1º Calcular a média de cada amostra
• 2º Calcular a variância dos escores brutos:
𝑠2
=
𝑋2
𝑁
− 𝑋²
• 3º Calcular o erro padrão da diferença entre as médias:
𝑠 𝑋1− 𝑋2
=
𝑁1 𝑠1
2+𝑁2 𝑠2
2
𝑁1+𝑁2−2
𝑁1+𝑁2
𝑁1 𝑁2
• 4º Calcular a razão t (gl = N1 + N2 - 2):
65
𝑡 =
𝑋1 − 𝑋2
𝑠 𝑋1−𝑋2
Nota Turma 1 Nota Turma 2
8 8
10 7
7 7
6 5
10 3
Avaliem se as médias dessas
turmas são estatisticamente
diferentes, ao nível de 5% e
20%.
P.s.: teste bilateral, divida o
alfa por 2.
Isso é importante para vocês saberem que não
basta os números serem diferentes!
69. Felipe Pontes
www.contabilidademq.blogspot.com
Ajuste para variâncias desiguais
• No teste anterior nós combinamos as variâncias de duas amostras,
presumindo que 𝜎1
2
= 𝜎2
2
, como não sabemos a variância da população,
utilizamos a das amostras para aproximar.
• Teste de homogeneidade das variâncias: Levene.
• Em caso de heterogeneidade, o erro padrão é calculado dessa forma,
sem combinar as variâncias:
• Refaça o exercício das notas das turmas considerando que as variâncias
são heterogêneas. Considere os mesmos gl neste exercício.
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
69
𝑠 𝑋1− 𝑋2
=
𝑠1
2
𝑁1 − 1
+
𝑠2
2
𝑁2 − 1
70. Felipe Pontes
www.contabilidademq.blogspot.com
Testes de hipóteses
Pr(T < t) = 0.9515 Pr(|T| > |t|) = 0.0971 Pr(T > t) = 0.0485
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Ho: diff = 0 Welch's degrees of freedom = 9.85366
diff = mean(1) - mean(2) t = 1.8333
diff 2.2 1.2 -.479159 4.879159
combined 10 7.1 .6741249 2.13177 5.575023 8.624977
2 5 6 .8944272 2 3.516672 8.483328
1 5 8.2 .8 1.788854 5.978844 10.42116
Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
Two-sample t test with unequal variances
. ttest mediaturmas, by(turmas) unequal welch
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
70Insira os dados do slide anterior
no Stata e rode o teste
71. Felipe Pontes
www.contabilidademq.blogspot.com
Testes de hipóteses
W10 = 0.09090909 df(1, 8) Pr > F = 0.77071328
W50 = 0.00000000 df(1, 8) Pr > F = 01
W0 = 0.09090909 df(1, 8) Pr > F = 0.77071328
Total 7.1 2.1317703 10
2 6 2 5
1 8.2 1.7888544 5
turmas Mean Std. Dev. Freq.
Summary of mediaturmas
. robvar mediaturmas, by(turmas)
71
W0 é Levene e W50 é o teste de
Brown.
Com base nisso, devemos
rejeitar ou não rejeitar a
homogeneidade das variâncias?
Insira os dados do slide anterior
no Stata e rode o teste
72. Felipe Pontes
www.contabilidademq.blogspot.com
Amostras dependentes (emparelhadas)
• O teste t anterior era utilizado para amostras independentes (turma 1 x
turma 2, liberais x conservadores, BRA x EUA etc). Agora o teste é para a
mesma amostra, mas em momentos distintos (exemplos?).
• Passos para testar amostras dependentes:
1. Calcule a média para cada ponto no tempo
2. Calcule o desvio padrão para a diferença entre o “tempo” 1 e o “tempo” 2 (D):
𝑠 𝐷 =
𝐷2
𝑁
− 𝑋1 − 𝑋2 ²
3. Calcule o erro padrão da diferença entre as médias: 𝑠 𝐷=
𝑠 𝐷
𝑁−1
4. Calcule o t: 𝑡 =
𝑋1− 𝑋2
𝑠 𝐷
5. Faça o teste com base nos gl e a 1%, 5% e 10%.
72
Antes Depois
2 1
1 2
3 1
3 1
1 2
4 1
73. Felipe Pontes
www.contabilidademq.blogspot.com
Amostras dependentes (emparelhadas)
Pr(T < t) = 0.8984 Pr(|T| > |t|) = 0.2031 Pr(T > t) = 0.1016
Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0
Ho: mean(diff) = 0 degrees of freedom = 5
mean(diff) = mean(var1 - var2) t = 1.4639
diff 6 1 .6831301 1.67332 -.7560417 2.756042
var2 6 1.333333 .2108185 .5163978 .7914071 1.87526
var1 6 2.333333 .4944132 1.21106 1.062404 3.604263
Variable Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
Paired t test
. ttest var1==var2
73
Para esse teste não é possível usar a opção by()
Insira os dados do slide anterior
no Stata e rode o teste
74. Felipe Pontes
www.contabilidademq.blogspot.com
Amostras dependentes (emparelhadas)
• Teste com os dados da planilha “AULA 3 - INFERÊNCIA - APLICAÇÕES
PRÁTICAS1”, aba “teste t emparelhado”.
• Com esses mesmos dados, use o teste t para amostras independentes e
compare os resultados.
74
77. Felipe Pontes
www.contabilidademq.blogspot.com
Testes unilaterais
• A diferença básica está na forma como as hipóteses são apresentadas e
no tipo de tabela t que é usada, porém a matemática é igual.
• O teste bilateral diz que existem diferenças (e.g. existem diferenças no PL
após a adoção das IFRS).
• O teste unilateral nos diz em que sentido essa diferença está, (e.g. os AD
são menores após a adoção das IFRS).
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
77
Fonte: LFF (2012)
79. Felipe Pontes
www.contabilidademq.blogspot.com
Testes unilaterais
• Passos para testar amostras dependentes de forma unilateral:
1. Calcule a média para cada ponto no tempo
2. Calcule o desvio padrão para a diferença entre o “tempo” 1 e o “tempo” 2
(D): 𝑠 𝐷 =
𝐷2
𝑁
− 𝑋1 − 𝑋2 ²
3. Calcule o erro padrão da diferença entre as médias: 𝑠 𝐷=
𝑠 𝐷
𝑁−1
4. Calcule o t: 𝑡 =
𝑋1− 𝑋2
𝑠 𝐷
5. Faça o teste com base nos gl e a 1%, 5% e 10%.
ppgcc@ccsa.ufpb.br
79
Estudante Antes Depois
1 58 66
2 63 68
3 66 72
4 70 76
5 63 78
6 51 56
7 44 69
8 58 55
9 50 55
Teste se depois do reforço
houve melhora nas notas:
Teste:
H0: O reforço não melhora a média dos alunos (mA = mD)
H1: O reforço melhora a média dos alunos (mA < mD)
80. Felipe Pontes
www.contabilidademq.blogspot.com
Pr(T < t) = 0.0079 Pr(|T| > |t|) = 0.0157 Pr(T > t) = 0.9921
Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0
Ho: mean(diff) = 0 degrees of freedom = 8
mean(diff) = mean(var1 - var2) t = -3.0542
diff 9 -8 2.619372 7.858117 -14.04028 -1.959717
var2 9 66.11111 2.969495 8.908485 59.26344 72.95878
var1 9 58.11111 2.805968 8.417904 51.64054 64.58169
Variable Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
Paired t test
. ttest var1==var2
Testes unilaterais
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
80Insira os dados do slide anterior
no Stata e rode o teste
81. Felipe Pontes
www.contabilidademq.blogspot.com
Testes unilaterais
• Passos para testar amostras independentes de forma unilateral:
1. Calcule a média para cada amostra.
2. Calcule o desvio padrão amostral de cada amostra: 𝑠 =
𝑋2
𝑁
− 𝑋²
3. Calcule o erro padrão da diferença entre as médias: 𝑠 𝑋1− 𝑋2
=
𝑁1 𝑠1
2+𝑁2 𝑠2
2
𝑁1+𝑁2−2
𝑁1+𝑁2
𝑁1 𝑁2
4. Calcule o t: 𝑡 =
𝑋1− 𝑋2
𝑠 𝑋1− 𝑋2
5. Faça o teste com base nos gl e a 1%, 5% e 10%.
6. H0: m1 = m2 // H1: m2 > m1
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
81
Nota Turma 1 Nota Turma 2
8 8
10 7
7 7
6 5
10 3
Avaliem se a média da T1 é
maior do que a T2, a 1%, 5% e
10%.
82. Felipe Pontes
www.contabilidademq.blogspot.com
Testes unilaterais
Pr(T < t) = 0.9479 Pr(|T| > |t|) = 0.1041 Pr(T > t) = 0.0521
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Ho: diff = 0 degrees of freedom = 8
diff = mean(1) - mean(2) t = 1.8333
diff 2.2 1.2 -.567205 4.967205
combined 10 7.1 .6741249 2.13177 5.575023 8.624977
2 5 6 .8944272 2 3.516672 8.483328
1 5 8.2 .8 1.788854 5.978844 10.42116
Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
Two-sample t test with equal variances
. ttest mediaturmas, by(turmas)
82Insira os dados do slide anterior
no Stata e rode o teste
84. Felipe Pontes
www.contabilidademq.blogspot.com
Pressupostos do t
1. O z e o t são utilizados para comparar médias entre duas amostras
independentes ou de uma mesma amostra medida em dois “tempos”
diferentes.
2. Esse teste é indicado para dados intervalares, não para nominais ou
ordinais (para este existem evidências mostrando o contrário – ver
próximo slide).
3. É recomendado que se use uma amostragem aleatória (na prática isso
não é um problema recorrente).
4. Para amostras pequenas (o que é isso?) os dados têm que ser
normalmente distribuídos.
5. As variâncias precisam ser homogêneas (existem correções para isso no
teste t ou usando uma versão não paramétrica – há controvérsias).
84
85. Felipe Pontes
www.contabilidademq.blogspot.com
Relaxando alguns pressupostos…
1. Em amostras grandes podemos relaxar a normalidade e a homocedasticidade
tem alguns ajustes fáceis de se fazer nos softwares.
2. Sobre o teste t com dados ordinais, temos versões não paramétricas (MW e
Wilcoxon - MWW), porém há como se argumentar o uso do teste t (mas com
cuidado) (Winter, Dodou, 2010):
a) Para distribuições muito não normais (e.g. exponencial) ou com outliers, MWW tem mais
poder (Blair & Higgins, 1980; Bridge & Sawilowsky, 1999; MacDonald, 1999; Neave &
Granger, 1968);
b) Testes não paramétricos são melhores para amostras pequenas e o t melhora à medida
que a amostra aumenta, pelo Teorema do Limite Central (Lumley, Diehr, Emerson, & Chen,
2002), porém há evidências de que MWW também melhoram o poder em amostras
grandes (Nanna, Sawilowky, 1998); e
c) MWW tem a mesma interpretação do t, após fazer o rankeamento das amostras (pois
existe a versão na mediana desse teste);
d) Especificamente para escalas Likert de 5 pontos: não devemos perder nosso sono com esse
tipo de “problema” (Winter, Dodou, 2010).
85
86. Felipe Pontes
www.contabilidademq.blogspot.com
ANOVA
• Quantos grupos nós estávamos comparando com o teste t?
• Na ANOVA nós podemos comparar mais de 2 grupos! Isso é um
diferencial muito importante em nossas pesquisas. Não podemos
simplesmente fazer vários testes t:
– Perdemos “poder” no teste, pois perderemos graus de liberdade em cada teste;
– Aumentamos a chance de cometer um erro do tipo I, por erro na composição da
amostra. A ANOVA mantém a probabilidade do erro do tipo I constante.
• Na ANOVA nós usamos o teste F, no lugar do t.
86
87. Felipe Pontes
www.contabilidademq.blogspot.com
ANOVA
Procedimentos para a ANOVA:
• Cálculo das somas dos quadrados
– 𝑆𝑄𝑡𝑜𝑡𝑎𝑙 = (𝑋 − 𝑋𝑡𝑜𝑡𝑎𝑙)²
– 𝑆𝑄 𝑑𝑒𝑛𝑡𝑟𝑜 = (𝑋 − 𝑋 𝑔𝑟𝑢𝑝𝑜)²
– 𝑆𝑄 𝑒𝑛𝑡𝑟𝑒 = 𝑁𝑔𝑟𝑢𝑝𝑜( 𝑋𝑔𝑟𝑢𝑝𝑜 − 𝑋𝑡𝑜𝑡𝑎𝑙)²
• Média quadrática (variância)
– 𝑀𝑄 𝑒𝑛𝑡𝑟𝑒 =
𝑆𝑄 𝑒𝑛𝑡𝑟𝑒
𝑘−1
, em que k é o número de grupos
– 𝑀𝑄 𝑑𝑒𝑛𝑡𝑟𝑜 =
𝑆𝑄 𝑑𝑒𝑛𝑡𝑟𝑜
𝑁−𝑘
• Razão F (F calculado)
– 𝐹 =
𝑀𝑄 𝑒𝑛𝑡𝑟𝑒
𝑀𝑄 𝑑𝑒𝑛𝑡𝑟𝑜
87
Compara as variações entre e dentro dos grupos
Fonte de variação SQ gl MQ F
Entre 1.685 3 561,67 20,24
Dentro 444 16 27,75
Total 2.129 19
A satisfação com a vida difere de acordo com o
estado civil? Faça o teste e decida, a 1% e 5%.
Percebam que a tabela da ANOVA é
composta por valores positivos – variância.
88. Felipe Pontes
www.contabilidademq.blogspot.com
ANOVA
• Existem dois modelos de ANOVA:
– Modelo de efeitos fixos: definimos a priori os grupos (é o padrão).
– Modelo de efeitos aleatórios: os grupos são definidos aleatoriamente.
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
88
89. Felipe Pontes
www.contabilidademq.blogspot.com
ANOVA
• Verifique se há discriminação no emprego de pessoas do sexo
masculino e feminino. Você aplicou um questionário com alguns
empresários em que foram usados 3 tipos de nomes: masculino,
feminino e um nome neutro (grupo de controle), porém os currículos
eram iguais exceto pelo nome do candidato. Teste a normalidade e a
homogeneidade das variâncias antes.
89
Nota do currículo
Masculino
Nota do currículo
Neutro
Nota do currículo
Feminino
6 2 3
7 5 2
8 4 4
6 3 4
4 5 3
Média = 6,2 3,8 3,2
Rode direto no Stata
91. Felipe Pontes
www.contabilidademq.blogspot.com
ANOVA
Bartlett's test for equal variances: chi2(2) = 1.1517 Prob>chi2 = 0.562
Total 43.6 14 3.11428571
Within groups 18.4 12 1.53333333
Between groups 25.2 2 12.6 8.22 0.0056
Source SS df MS F Prob > F
Analysis of Variance
. oneway var1 var2, bonferroni scheffe sidak
91
93. Felipe Pontes
www.contabilidademq.blogspot.com
ANOVA
• O teste F é um teste múltiplo. Se for rejeitada a hipótese de igualdade
(H0: 𝜇1 = 𝜇2 = 𝜇3, H1: 𝜇𝑖 ≠ 𝜇 𝑗), sabemos que pelo menos um grupo
tem média diferente. Mas qual ou quais? O que você faria para
descobrir quais são os pares diferentes?
• Para resolver esse problema usamos os testes post hoc, que se baseiam
nas medidas utilizadas para o cálculo do teste F (não devemos usar
vários testes t, por aumentar a chance do erro tipo I).
• São inúmeros. Recomendação: quando for usar, observe bem seus
dados e escolha o mais adequado.
93
94. Felipe Pontes
www.contabilidademq.blogspot.com
ANOVA – Post hocs
• Bonferroni: é apropriado quando o número de comparações ( 𝑘∗(𝑘−1)
2) é
maior do que os graus de Liberdade entre os grupos (k-1). É muito
conservador e seu poder diminui à medida que o número de comparações
aumenta. Não requer que a ANOVA tenha sido significante. Tem um bom
controle do erro tipo I.
• LSD de Fisher: é o mais liberal de todos. É mais apropriado para quando
temos 3 grupos. É como se usássemos múltiplos testes t (ou seja, não
tenta controlar o erro tipo I). Requer que a ANOVA tenha sido significante.
• Newman-Keuls (SNK): é apropriado quando o número de comparações
excede os graus de liberdade. Se você não quer ser tão conservador
quanto o Bonferroni, ele é uma boa escolha. Ou seja… é muito liberal.
94
95. Felipe Pontes
www.contabilidademq.blogspot.com
ANOVA – Post hocs
• HSD de Tukey: controla bem o erro do tipo I. É apropriado para um
grande número de grupos. É o post hoc mais popular.
• WSD de Tukey: é indicado quando temos mais de k-1 e menos do
que 𝑘∗(𝑘−1)
2 comparações. É menos conservador do que o HSD e
mais conservador do que o Newman-Kuels.
• Scheffe: é o mais conservador de todos! Ele tem baixo poder com
poucas comparações (menos do que k-1).
95
96. Felipe Pontes
www.contabilidademq.blogspot.com
ANOVA – Post hocs
• Gabriel: quando os valores dos N’s dos grupos for pouco diferente.
• GT2 de Hochberg: indicado quando os N’s forem muito diferentes.
Porém é preciso ter variâncias homogêneas.
• Games-Howel: para N’s diferentes e variâncias heterogêneas.
Existem muitas opções e muitos detalhes. Não se limitem a só essas
informações que estão muito resumidas!
96
98. Felipe Pontes
www.contabilidademq.blogspot.com
ANOVA – Post hocs
• oneway var1 var2, bonferroni scheffe sidak
98
0.007 0.841
3 -3 -.6
0.029
2 -2.4
Col Mean 1 2
Row Mean-
(Sidak)
Comparison of var1 by var2
0.008 0.751
3 -3 -.6
0.031
2 -2.4
Col Mean 1 2
Row Mean-
(Scheffe)
Comparison of var1 by var2
0.007 1.000
3 -3 -.6
0.029
2 -2.4
Col Mean 1 2
Row Mean-
(Bonferroni)
Comparison of var1 by var2
0.007 0.841
3 -3 -.6
0.029
2 -2.4
Col Mean 1 2
Row Mean-
(Sidak)
Comparison of var1 by var2
0.008 0.751
3 -3 -.6
0.031
2 -2.4
Col Mean 1 2
Row Mean-
(Scheffe)
Comparison of var1 by var2
0.007 1.000
Row Mean-
(Scheffe)
Comparison of var1 by var2
0.007 1.000
3 -3 -.6
0.029
2 -2.4
Col Mean 1 2
Row Mean-
(Bonferroni)
Comparison of var1 by var2
99. Felipe Pontes
www.contabilidademq.blogspot.com
Pressupostos da ANOVA
• Sobre a heterocedasticidade na ANOVA:
– Pode-se usar alguma transformação dos dados;
– Brown-Forsythe (os “n” dos grupos são semelhantes);
– Welch (os “n” não são semelhantes); e
– Kruskal-Wallis (não paramétrico).
99
Ver: “Adjusting the One-way ANOVA for Heterogeneity of
Variance” http://www.psych.nyu.edu/cohen/eps12dr1.pdf
100. Felipe Pontes
www.contabilidademq.blogspot.com
ANOVA robusta para heterogeneidade
findit simanova
1) simanova var1 var2
• Esse comando fará várias simulações para tentar ajustar o problema da
heterogeneidade
2) fstar var1 var2
• Esse comando ajusta o teste F padrão, fazendo com que ele fique menos
sensível a heterogeneidade
findit wtest
3) wtest var1 var2
• ANOVA de Welch.
4) É possível também rodar regressões robustas, com a variável de interesse
sendo a dependente e as dummies dos grupos como sendo independentes.
100
102. Felipe Pontes
www.contabilidademq.blogspot.com
Pressupostos da ANOVA
• É preciso ter mais de dois grupos para se comparar.
• Os dados devem ser intervalares, porém os grupos são categorizados.
• Amostragem aleatória.
• Distribuição normal.
• Homogeneidade das variâncias.
102
103. Felipe Pontes
www.contabilidademq.blogspot.com
ANOVA - Aplicação
• Use os dados da planilha “AULA 3 - INFERÊNCIA - APLICAÇÕES
PRÁTICAS1” para analisar não mais par a par, mas os 3 grupos de uma só
vez. Rode também os modelos robustos para heterocedasticidade.
• Não precisa escrever a análise agora. Apenas rodar os testes.
103
104. Felipe Pontes
www.contabilidademq.blogspot.com
Testes não paramétricos
• Seguem o mesmo raciocínio dos paramétricos, porém sem os
pressupostos.
• Para cada paramétrico nós temos um não paramétrico correspondente.
104
Mensuração Amostra independente Amostra emparelhada
Intervalar (antende aos
pressupostos)
Teste t para amostras
independentes (mais de 2
grupos ANOVA)
Teste t para amostras
emparelhadas
Ordinal e intervalar (não atende aos
pressupostos)
Mann-Whitney (mais de 2
grupos Kruskal-Wallis)
Wilcoxon
Nominal (duas categorias - C) Chi² tabela 2x2 McNemar
Nominal (C > 2) Chi² tabela 2xC
Ex.:
Ordinal é qualitativo e impõe
uma ordem: satisfação,
escolaridade, nível de
governança etc.
Nominal é categórico, não
dá para dizer que uma
categoria é melhor que a
outra: nome, gênero etc.
Intervalar é quantitativo,
é possível calcular média,
moda, mediana etc:
lucro, preço etc.
105. Felipe Pontes
www.contabilidademq.blogspot.com
Testes não paramétricos
Refaça todos os testes que fizemos no Stata, porém agora com suas
versões não paramétricas. Compare os resultados.
• Kruskall-Wallis: kwallis VARIÁVEL, by(GRUPO)
(H0: igualdade entre os grupos)
• Wilcoxon-Mann-Whitney: ranksum VARIÁVEL, by(GRUPO)
• Outro teste de mediana: median VARIÁVEL, by(GRUPO) exact
(H0: igualdade entre os grupos)
• Teste dos postos de Wilcoxon (emparelhado): signrank var1=var2
• Teste dos sinais de Snedecor e Cochran (emparelhado): signtest
var1=var2
105
106. Felipe Pontes
www.contabilidademq.blogspot.com
Exercício
• Vamos às análises! Faça os testes dos pressupostos de normalidade
de homocedasticidade antes dos testes de média.
1. A variável VarCaixa, na planilha “AULA 3 - INFERÊNCIA - APLICAÇÕES
PRÁTICAS1” (aba “ANOVA e teste independente), representa a variação no
caixa-meta de 3 grupos de empresas brasileiras, enquanto que VarAbsCaixa
é a variação absoluta.
A. Analise, com base em um teste t para amostras independentes, se há
diferença na média das duas variáveis do grupo 1 e do grupo 3.
Comandos: acesse o post do blog.
106
107. Felipe Pontes
www.contabilidademq.blogspot.com
Exercício
> questão pede.
. * No comando acima eu retirei o grupo 3. Ou seja, analisei 1 com 2. Refaça retirando o grupo 2, que é o que a
.
Pr(T < t) = 0.0000 Pr(|T| > |t|) = 0.0000 Pr(T > t) = 1.0000
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Ho: diff = 0 degrees of freedom = 1523
diff = mean(1) - mean(2) t = -4.6930
diff -.0479421 .0102157 -.0679804 -.0279038
combined 1525 .0028823 .0045209 .1765483 -.0059856 .0117503
2 1126 .0154259 .0053364 .1790685 .0049554 .0258963
1 399 -.0325162 .0082281 .1643563 -.0486922 -.0163402
Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
Two-sample t test with equal variances
. ttest VarCaixa if Trsgrupos!=3, by(Trsgrupos)
.
. * Por isso usaremos o comando "if", excluindo o grupo 3 da análise ("!=" quer dizer diferente).
107
109. Felipe Pontes
www.contabilidademq.blogspot.com
Exercício
• Vamos às análises! Faça os testes dos pressupostos de normalidade
de homocedasticidade antes dos testes de média.
1. A variável VarCaixa, na planilha “AULA 3 - INFERÊNCIA - APLICAÇÕES
PRÁTICAS1” (aba “ANOVA e teste independente), representa a variação no
caixa-meta de 3 grupos de empresas brasileiras, enquanto que VarAbsCaixa
é a variação absoluta.A. Analise, com base em um teste t para amostras independentes, se há diferença na média das duas variáveis do grupo 1 e do grupo 3.
B. Analise, com base em uma ANOVA, se há diferença entre os 3 grupos.
Verifique com os post-hocs quais grupos são diferentes, se houver
diferença.
Comandos: acesse o post do blog.
A. Refaça a análise da letra A e da letra B usando um teste não paramétrico equivalente.
109
111. Felipe Pontes
www.contabilidademq.blogspot.com
Exercício
Bartlett's test for equal variances: chi2(2) = 60.3434 Prob>chi2 = 0.000
Total 64.3033848 2391 .026893929
Within groups 63.5912947 2389 .026618374
Between groups .712090133 2 .356045066 13.38 0.0000
Source SS df MS F Prob > F
Analysis of Variance
Total -2.323e-15 .16399369 2392
3 -.00506987 .13914296 867
2 .01542589 .17906847 1126
1 -.03251622 .16435627 399
Três grupos Mean Std. Dev. Freq.
Summary of VarCaixa
. oneway VarCaixa Trsgrupos, tabulate
111
113. Felipe Pontes
www.contabilidademq.blogspot.com
Exercício
0.016 0.016
3 .027446 -.020496
0.000
2 .047942
Col Mean 1 2
Row Mean-
(Bonferroni)
Comparison of VarCaixa by Três grupos
113
0.021 0.021
3 .027446 -.020496
0.000
2 .047942
Col Mean 1 2
Row Mean-
(Scheffe)
Comparison of VarCaixa by Três grupos
0.016 0.016
3 .027446 -.020496
0.000
2 .047942
Col Mean 1 2
Row Mean-
(Sidak)
Comparison of VarCaixa by Três grupos
114. Felipe Pontes
www.contabilidademq.blogspot.com
Recomendação de leitura
• GIGERENZER, G. Mindless statistics. The Journal of Socio-Economics, v.33, 2004.
• IOANNIDIS, J.P.A. Fit-for-purpose inferential methods: abandoning/changing P-
values versus abandoning/changing research. The American Statistician, 2016.
• POOLE, C. Low p-values or narrow confidence intervals: which are more durable?
Epidemiology, v.12, n.3, 2001.
• SCHERVISH, M.J. P-values: what they are and what they are not. The American
Statistician, v.50, n.3, 1996.
• WASSERSTEIN, R.L.; LAZAR, N.A. The ASA’s statement on p-values: context, process,
and purpose. The American Statistician, 2016.
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
114
115. Felipe Pontes
www.contabilidademq.blogspot.com
Recomendação de leitura
• O fim do p-value 1:
http://contabilidademq.blogspot.com.br/2015/11/o-fim-da-inferencia-
e-do-p-value.html
• O fim do p-value 2:
http://contabilidademq.blogspot.com.br/2016/03/o-fim-da-inferencia-
e-do-p-value-o.html
• Intervalo de confiança e a mídia:
http://fivethirtyeight.com/features/ignore-the-headlines-we-dont-
know-if-e-cigs-lead-kids-to-real-cigs/
• P-hacking: http://fivethirtyeight.com/features/science-isnt-
broken/#part1
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
115
117. Felipe Pontes
www.contabilidademq.blogspot.com
Tópico 5: Modelo Clássico de Regressão Linear
• O material completo usado nas aulas poderá ser encontrado no
seguinte link:
1. http://contabilidademq.blogspot.com.br/2017/04/introducao-ao-
modelo-classico-de.html
2. http://contabilidademq.blogspot.com.br/2017/04/regressao-multipla-
materiais-da-aula.html
3. http://contabilidademq.blogspot.com.br/2017/04/diagnosticos-do-
modelo-classico-de.html
117
118. Felipe Pontes
www.contabilidademq.blogspot.com
O que é um modelo de regressão?
• É um modelo que descreve e analisa a relação entre uma variável
dependente e uma ou mais variáveis independentes.
• Na regressão existe apenas uma variável dependente. Para mais de uma
dependente, você deverá utilizar a correlação canônica.
118
119. Felipe Pontes
www.contabilidademq.blogspot.com
Regressão x Correlação
• A correlação mede apenas o grau de associação linear entre duas
variáveis.
• A regressão vai além disso, é mais flexível e forte do que a correlação:
– Com a correlação não é preciso saber quem é Y ou quem é X, na regressão sim;
– Com a regressão nós podemos fazer algum tipo de previsão de Y com base em X,
com a correlação não; e
– Correlação não quer dizer “causação”. Nem regressão, estritamente (ver no
futuro “causa Granger”).
119
120. Felipe Pontes
www.contabilidademq.blogspot.com
Regressão Simples
• É o tipo de regressão que contém apenas uma variável independente:
y = a + bx + 𝜀
• A regressão simples nos apresenta resultados “semelhantes” ao da
correlação.
• Exemplo de regressão simples CAPM padrão: 𝑅𝑒𝑡𝐸𝑥𝑐 𝑡 = 𝛼 +
𝛽𝑃𝑅𝑀𝑡 + 𝜀 𝑡
120
122. Felipe Pontes
www.contabilidademq.blogspot.com
Regressão Simples
• A forma mais comum de se minimizar a distância entre os pontos
observados e a reta estimada é pelo método dos mínimos quadrados
ordinários (OLS) – porém existem diversas outras maneiras (máxima
verossimilhança, MM etc.).
• O OLS minimiza a soma dos quadrados dos resíduos da regressão.
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
122
Por que minimizar a soma dos
quadrados dos resíduos e não
apenas a soma dos resíduos?
Rodar uma regressão qualquer no
programa para verificar na prática,
após responder
(predict uchapeu, residuals)
124. Felipe Pontes
www.contabilidademq.blogspot.com
Regressão Simples
• Antes de vermos a “matemática” de fato, vamos a um exemplo e outros
detalhes sobre a regressão simples (desconsideraremos aqui os
pressupostos, problemas relacionados a séries temporais etc), iniciando
com um exemplo básico.
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
124
125. Felipe Pontes
www.contabilidademq.blogspot.com
Regressão Simples (CAPM)
_cons -1.736649 4.113993 -0.42 0.701 -14.82921 11.35591
var2 1.641745 .2647783 6.20 0.008 .7991029 2.484388
var1 Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 418.959999 4 104.74 Root MSE = 3.1794
Adj R-squared = 0.9035
Residual 30.325994 3 10.1086647 R-squared = 0.9276
Model 388.634005 1 388.634005 Prob > F = 0.0085
F( 1, 3) = 38.45
Source SS df MS Number of obs = 5
. reg var1 var2
125
126. Felipe Pontes
www.contabilidademq.blogspot.com
Regressão Simples
1. Qual é o beta do seu fundo de investimento? Faça uma brevíssima
análise desse beta, o fundo é arriscado ou não, muito ou pouco?
2. O que o alfa quer dizer, estatisticamente e economicamente?
3. Baseado no resultado da regressão, se você, como gestor do fundo,
esperar que o Mercado (Rm) tenha um retorno 20% maior do que a Rf
(i.e. PRM), quanto esperar de retorno para o fundo? P.s.: os dados não
foram inputados na planilha sem o símbolo de %, então usem 20.
4. O que podemos perceber analisando os intervalos de confiança?
126
127. Felipe Pontes
www.contabilidademq.blogspot.com
• Os dados de X são observáveis, porém o Y depende também de u, então
precisamos pressupor algumas coisas sobre ele:
Pressupostos do MCRL
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
127
Isso apenas é garantido se houver um a no modelo
Testes para heterocedasticidade
Testes para autocorrelação
Pode ser gerado por erros de especificação
Veremos um pouco mais sobre isso em “paineis”
É importante para fazer inferências sobre a população em uma amostra finita
129. Felipe Pontes
www.contabilidademq.blogspot.com
Pressupostos
• Os pressupostos são importantes em qualquer teoria para podermos
fazer com que ela seja testável. Na econometria é do mesmo jeito.
Brooks, Gujarati e outros autores concordam sobre isso. Sempre temos
uma saída para problemas com elas.
• Para uma discussão teórica e prática, vejam os capítulos 10
(multicolinearidade), 11 (heterocedasticidade), 12 (autocorrelação) e 13
(erro de especificação) de Gujarati e Porter (2012). Sobre a normalidade
veja a seção 4.2 do mesmo livro.
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
129
130. Felipe Pontes
www.contabilidademq.blogspot.com
Propriedades do OLS
• Considerando que os Pressupostos 1-4 são aplicáveis, o estimador OLS
será BLUE (best linear unbiased estimator).
– “Best” - o estimador OLS tem a menor variância entre os demais
estimadores lineares não viesados (Gauss-Markov).
– “Linear” - é um estimador linear.
– “Unbiased” - Em média, o valor de e será igual ao seu valor real.
– “Estimator” - é um estimador do real valor de b.
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
130
$b
$b
$a $b
131. Felipe Pontes
www.contabilidademq.blogspot.com
Consistência do OLS
• Com o aumento da amostra até o infinito, o estimador convergirá ao seu
valor real.
• Para que isso seja verdade, é preciso apenas de dois pressupostos:
E(xtut) = 0 e E(ut) = 0.
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
131
00ˆPrlim
bb
T
132. Felipe Pontes
www.contabilidademq.blogspot.com
Não viesado
• Em média, o valor estimado dos parâmetros será igual ao seu valor real.
• Essa propriedade é mais forte que a anterior, da consistência, porque
vale tanto para amostras pequenas quanto para grandes. A consistência
é mais “assintótica”, para grandes amostras.
• Para que isso seja verdade, também é preciso que E(xtut) = 0.
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
132
133. Felipe Pontes
www.contabilidademq.blogspot.com
Eficiência
• Um estimador é eficiente se nenhum outro estimador tiver variância
melhor do que ele. Ou seja, a sua distribuição de probabilidade é pouco
dispersa em torno da média do valor real.
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
133
134. Felipe Pontes
www.contabilidademq.blogspot.com
Testes de hipóteses: t-ratio
• É o que nós frequentemente testamos na regressão para avaliar se os
coeficientes são significativos. Eles “têm” que ser diferentes de zero,
então precisamos rejeitar a H0 desse teste.
• Considerando T = 15 e um nível de significância de 5%, teste a
significância dos parâmetros abaixo:
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
134
135. Felipe Pontes
www.contabilidademq.blogspot.com
Testes de hipóteses: t-ratio
• Verifique se os coeficientes abaixo são significativos ao nível de 5%,
considerando que a amostra contém 134 observações.
135
_cons 6.40e-06 .0002662 0.02 0.9
retfutures 1.007291 .0058654 171.73 0.0
retspot Coef. Std. Err. t P>|
136. Felipe Pontes
www.contabilidademq.blogspot.com
Analisando a expectativa de vida
• sysuse uslifeexp
• sysdescribe uslifeexp
• Faça os exercícios abaixo, usando regressões simples:
1. Analise o efeito do tempo na expectativa de vida, em geral, das pessoas
dos EUA: reg le year
2. Compare o efeito do tempo na expectativa de vida dos homens e
depois das mulheres. Compare os dois.
3. Compare agora os homens brancos com os homens negros.
4. Compare agora as mulheres brancas com as negras.
5. Em geral, para quem o efeito do tempo tem sido mais benéfico?
Busque alguma justificativa.
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
136
137. Felipe Pontes
www.contabilidademq.blogspot.com
Recomendação de leitura
• KENNEDY, Peter E. Oh no! I got the wrong sign! What should I do? The
Journal of Economic Education, v. 36, n. 1, p. 77-92, 2005.
• MCHUGH, Mary L. Standard error: meaning and
interpretation. Biochemia Medica, v. 18, n. 1, p. 7-13, 2008.
• http://contabilidademq.blogspot.com.br/2016/04/oh-nao-meus-
coeficientes-da-regressao1111.html
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
137
138. Felipe Pontes
www.contabilidademq.blogspot.com
Por que usar regressões múltiplas?
• Na última aula vimos como trabalhar com regressões simples, que
contém apenas uma variável explicativa. Porém e se a teoria nos disser
que mais de uma variável explicativa ajuda a explicar a nossa variável
dependente?
• A solução é utilizar regressões múltiplas (que trazem também alguns
problemas adicionais).
• Exemplos de regressões múltiplas:
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
138
Modelo de Paulo (2007) para estimação
de accruals discricionários
Modelo de Basu (1995) para aferição do
conservadorismo condicional
139. Felipe Pontes
www.contabilidademq.blogspot.com
Teste de significância do modelo - F
• O teste t é usado para testar hipóteses com relação a 1 parâmetro do
modelo. O teste F é usado para testar a significância do modelo como um
todo (é um teste múltiplo).
• No âmbito da regressão, o teste F (padrão nos softwares) testa a H0 de
que todos os parâmetros do modelo (exceto a constante) são iguais a zero
– semelhante ao t, porém de forma múltipla.
• Para usar o teste F, precisamos estimar duas regressões:
A. Irrestrita (Unrestricted), que é gerada normalmente pelos seus dados
B. Restrita (Restricted), onde impomos a restrição que queremos testar nos
coeficientes (no caso da regressão, de que todos eles são iguais a zero).
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
139
140. Felipe Pontes
www.contabilidademq.blogspot.com
Teste de significância do modelo - F
• Para realizar o teste F é necessário estimar as duas regressões, com e sem
restrições, e utilizar seus resíduos:
Em que: URSS = RSS da regressão IRRESTRITA
RRSS = RSS da regressão RESTRITA
m = número de restrições
T = número de observações
k = número de regressores na regressão irrestrita,
incluindo a constante (i.e. o número de betas
estimados).
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
140
test statistic
RRSS URSS
URSS
T k
m
141. Felipe Pontes
www.contabilidademq.blogspot.com
Teste de significância do modelo - F
• A distribuição F tem dois parâmetros de graus de liberdade (m e T-k),
enquanto que a t tem apenas um (T-k).
• A distribuição F não é simétrica e tem apenas valores positivos. Para
rejeitar H0, então: F calculado > F tabelado.
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
141
Fonte: www.slideshare.net
142. Felipe Pontes
www.contabilidademq.blogspot.com
Teste de significância do modelo - F
• Exemplos de número de restrições:
H0: hipóteses No. de restrições, m
b1 + b2 = 2 1
b2 = 1 e b3 = -1 2
b2 = 0, b3 = 0 e b4 = 0 3
• Hipóteses que não são lineares ou são multiplicativas, e.g., não
podem ser testadas com a F: H0: b2 b3 = 2 or H0: b2
2 = 1. Testes não
lineares clique aqui.
• Hipóteses que podem ser testadas com o t, podem ser testadas com o
F, mas não necessariamente o contrário poderá ser feito.
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
142
143. Felipe Pontes
www.contabilidademq.blogspot.com
Teste de significância do modelo - F
• Para testar múltiplas hipóteses com o Stata, utilize a seguinte rotina
(lembrando que a sig do modelo já é dado quando roda a regressão):
test (Restrição 1) (Restrição 2) (Restrição 3) … (Restrição n)
Exemplo para o modelo regress retfutures retspot:
Manual do Stata sobre esses testes.
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
143
test (retspot=1) (retspot=_cons)
( 1) retspot = 1
( 2) retspot - _cons = 0
F( 2, 132) = 7.2e+06
Prob > F = 0.0000
144. Felipe Pontes
www.contabilidademq.blogspot.com
Analisando um APT
• Analise os resultados do próximo slide e responda às perguntas abaixo.
• Responda:
1. Quais variáveis foram significativas?
2. O modelo como um todo foi significativo?
3. Quando feito o teste conjunto com as variáveis que não foram significativas
individualmente, conclui-se que elas realmente não foram significativas?
4. Quando utilizado o método step-wise backwards com nível de significância de
20%, quais variáveis continuaram no modelo?
5. Quando realizado a 10%, quais continuaram?
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
144
148. Felipe Pontes
www.contabilidademq.blogspot.com
Analisando um APT
_cons -.6873412 .7027164 -0.98 0.329 -2.069869 .6951865
rterm 4.369891 2.49711 1.75 0.081 -.5429353 9.282718
dinflation 2.876958 2.069933 1.39 0.166 -1.195438 6.949354
ersandp 1.338211 .1530557 8.74 0.000 1.037089 1.639334
ermsoft Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 63840.0903 323 197.647338 Root MSE = 12.626
Adj R-squared = 0.1934
Residual 51013.0967 320 159.415927 R-squared = 0.2009
Model 12826.9936 3 4275.66453 Prob > F = 0.0000
F( 3, 320) = 26.82
Source SS df MS Number of obs = 324
p = 0.2256 >= 0.2000 removing dprod
p = 0.4807 >= 0.2000 removing dspread
p = 0.5944 >= 0.2000 removing dcredit
p = 0.7528 >= 0.2000 removing dmoney
begin with full model
. stepwise, pr(.20): regress ermsoft ersandp dprod dcredit dinflation dmoney dspread rterm
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
148
149. Felipe Pontes
www.contabilidademq.blogspot.com
Analisando um APT
_cons -.6858254 .7037347 -0.97 0.331 -2.07034 .6986893
rterm 4.18147 2.497043 1.67 0.095 -.7311675 9.094108
ersandp 1.33715 .1532757 8.72 0.000 1.035598 1.638702
ermsoft Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 63840.0903 323 197.647338 Root MSE = 12.644
Adj R-squared = 0.1911
Residual 51321.0511 321 159.878664 R-squared = 0.1961
Model 12519.0392 2 6259.51961 Prob > F = 0.0000
F( 2, 321) = 39.15
Source SS df MS Number of obs = 324
p = 0.0950 < 0.1000 adding rterm
p = 0.0000 < 0.1000 adding ersandp
begin with empty model
. . stepwise, pe(.10): regress ermsoft ersandp dprod dcredit dinflation dmoney dspread rterm
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
149
150. Felipe Pontes
www.contabilidademq.blogspot.com
Adequação/Ajuste do modelo
• Quão bem meu modelo se ajusta aos dados utilizados? Para saber isso,
utilizamos uma medida chamada de R² (a mais usada – geralmente é
proxy eg para value relevance).
• Na regressão, nosso interesse é explicar a variabilidade de y em torno
de 𝑦, ou seja a soma total dos quadrados: 𝑇𝑆𝑆 = 𝑦𝑡 − 𝑦 2
• A TSS pode ser segregada em uma parte que nosso modelo explica (ESS)
e a parte que nosso modelo não explica (RSS): TSS = ESS + RSS
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
150
151. Felipe Pontes
www.contabilidademq.blogspot.com
Adequação/Ajuste do modelo
• A medida de adequação do modelo, então, é dada por:
𝑅2 =
𝐸𝑆𝑆
𝑇𝑆𝑆
=
𝑇𝑆𝑆 − 𝑅𝑆𝑆
𝑇𝑆𝑆
= 1 −
𝑅𝑆𝑆
𝑇𝑆𝑆
• O R² deve estar entre 0 e 1:
RSS = TSS i.e. ESS = 0 R2 = ESS/TSS = 0
ESS = TSS i.e. RSS = 0 R2 = ESS/TSS = 1
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
151
152. Felipe Pontes
www.contabilidademq.blogspot.com
Adequação/Ajuste do modelo
Total 63840.0903 323 197.647338 Root MSE = 12.644
Adj R-squared = 0.1911
Residual 51321.0511 321 159.878664 R-squared = 0.1961
Model 12519.0392 2 6259.51961 Prob > F = 0.0000
F( 2, 321) = 39.15
Source SS df MS Number of obs = 324
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
152
R² = 12519,0392/63840,0903
154. Felipe Pontes
www.contabilidademq.blogspot.com
Adequação/Ajuste do modelo
• Compare os R² dos modelos dos próximos slides.
• Que conclusão se pode tirar, com relação ao R² e a inclusão de novas
variáveis no modelo?
• O R² nunca cai quando incluímos novas variáveis no modelo.
• Em séries temporais é comum encontrarmos R² > 0,9. Não se anime
muito com isso!
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
154
155. Felipe Pontes
www.contabilidademq.blogspot.com
Adequação/Ajuste do modelo
_cons -.2631496 .7801302 -0.34 0.736 -1.79791 1.271611
ermsoft Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 64085.9159 324 197.796037 Root MSE = 14.064
Adj R-squared = 0.0000
Residual 64085.9159 324 197.796037 R-squared = 0.0000
Model 0 0 . Prob > F = .
F( 0, 324) = 0.00
Source SS df MS Number of obs = 325
. regress ermsoft
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
155
156. Felipe Pontes
www.contabilidademq.blogspot.com
Adequação/Ajuste do modelo
_cons -.6137005 .705782 -0.87 0.385 -2.002211 .7748094
ersandp 1.325376 .1538871 8.61 0.000 1.022628 1.628124
ermsoft Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 64085.9159 324 197.796037 Root MSE = 12.702
Adj R-squared = 0.1842
Residual 52117.0991 323 161.353248 R-squared = 0.1868
Model 11968.8168 1 11968.8168 Prob > F = 0.0000
F( 1, 323) = 74.18
Source SS df MS Number of obs = 325
. regress ermsoft ersandp
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
156
158. Felipe Pontes
www.contabilidademq.blogspot.com
Adequação/Ajuste do modelo
• Para melhor adequar o R² à inclusão de novas variáveis, foi criado o R²
ajustado, ou R². Essa medida dá um “desconto” no R² pela inclusão de k
variáveis (incluindo a constante).
• Não faz sentido comparar modelos que tenham a mesma VD e VI
diferentes por meio do R², é preciso usar sua versão ajustada.
– regress ermsoft ersandp R² = 18,68% e R² ajustado = 18,42%
– regress ermsoft ersandp dprod dcredit dinflation dmoney dspread rterm R² =
20,68% e R² ajustado = 18,92%
– A inclusão das novas variáveis adiciona pouca explicação ao modelo.
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
158
)1(
1
1 22
R
kT
T
R
159. Felipe Pontes
www.contabilidademq.blogspot.com
Recomendação de leitura
• 7 tipos de regressão que você deve conhecer
http://contabilidademq.blogspot.com.br/2015/10/7-tipos-de-regressao-
que-voce-deve.html
• E agora? O estimador não é BLUE?
http://contabilidademq.blogspot.com.br/2015/10/e-agora-o-estimador-
nao-e-blue.html
• Regression is cool!
• http://contabilidademq.blogspot.com.br/2014/01/videoclip-regression-
is-cool.html
www.ccsa.ufpb.br/ppgcc
ppgcc@ccsa.ufpb.br
159
160. Felipe Pontes
www.contabilidademq.blogspot.com
Introdução
• Relembrando os pressupostos do MCRL:
1. E(ut) = 0
2. Var(ut) = 2 <
3. Cov (ui,uj) = 0
4. The X matrix is non-stochastic or fixed in repeated samples
5. ut N(0,2)
www.contabilidademq.blogspot.com
luizfelipe@ccsa.ufpb.br
160
161. Felipe Pontes
www.contabilidademq.blogspot.com
E(ut) = 0
• A inclusão da constante garante esse pressuposto.
• Vejamos um exemplo com os seguintes procedimentos:
– quietly regress ermsoft ersandp
– predict res_com_cons, residuals
– quietly regress ermsoft ersandp, noconstant
– predict res_sem_cons, residuals
– mean res_com_cons res_sem_cons
– sum res_com_cons res_sem_cons
– **usem um ou outro, o sum é uma descritiva mais completa do que apenas a mean.
– test res_com_cons = 0
– test res_sem_cons = 0
www.contabilidademq.blogspot.com
luizfelipe@ccsa.ufpb.br
161
162. Felipe Pontes
www.contabilidademq.blogspot.com
E(ut) = 0
res_sem_cons -.6116595 .7035219 -1.995707 .7723881
res_com_cons 1.23e-08 .7035192 -1.384042 1.384042
Mean Std. Err. [95% Conf. Interval]
Mean estimation Number of obs = 325
. mean res_com_cons res_sem_cons
www.contabilidademq.blogspot.com
luizfelipe@ccsa.ufpb.br
162
164. Felipe Pontes
www.contabilidademq.blogspot.com
E(ut) = 0
• Se a teoria disser que o modelo não deve ter constante e,
eventualmente, a média dos resíduos gerados não for zero, você terá
alguns problemas.
1. O R² (ESS/TSS) poderá ser negativo. Ou seja: 𝑦 explica mais as variações em
y do que as variáveis explicativas do modelo; e (o pior)
2. Quando não há intercepto poderá haver viés na inclinação da reta estimada
(ver próximo slide).
www.contabilidademq.blogspot.com
luizfelipe@ccsa.ufpb.br
164
166. Felipe Pontes
www.contabilidademq.blogspot.com
E(ut) = 0
www.contabilidademq.blogspot.com
luizfelipe@ccsa.ufpb.br
166
0
50
100150200
0 500 1000 1500
SANDP
Microsoft Linear prediction
0
50
100150200
0 500 1000 1500
SANDP
Microsoft Linear prediction
167. Felipe Pontes
www.contabilidademq.blogspot.com
Var(ut) = 2 <
• O gráfico abaixo apresenta um exemplo de heterocedasticidade. A
variância dos resíduos é crescente.
www.contabilidademq.blogspot.com
luizfelipe@ccsa.ufpb.br
167
Heterocedasticidade é um
problema comum para
contabilidade pois trabalhamos
com empresas de vários tipos,
tamanhos etc.
168. Felipe Pontes
www.contabilidademq.blogspot.com
Var(ut) = 2 <
DETECÇÃO:
• O método gráfico não é o melhor para se detectar o problema. No
gráfico anterior a heterocedasticidade era uma função da variável x2,
porém e se fosse de x3? Concluiríamos algo errado e teríamos muito
trabalho. Para reduzir esse problema, existem diversos testes
formais.
• Os testes mais comuns são o de White e o de Breusch-Pagan
(também conhecido como Breusch-Pagan/Cook-Weisberg). Seguem
os comandos:
– White: estat imtest, white
– BP: estat hettest
www.contabilidademq.blogspot.com
luizfelipe@ccsa.ufpb.br
168
Detecta qualquer forma linear de heterocedasticidade.
“estat hettest, idd” considera que os resíduos não são normais.
“estat hettest, fstat” considera que os resíduos não são normais e usa a
versão F do teste.
É um teste mais geral e não tem problema se a
heterocedasticidade for não linear.
Considera que os resíduos não são normalmente distribuídos.
Quando o modelo é muito grande (por gerar várias variáveis
“estranhas”) o BP pode ser mais poderoso que ele.
169. Felipe Pontes
www.contabilidademq.blogspot.com
Var(ut) = 2 <
Consequências da heterocedasticidade no OLS
1. O estimador nos apresentará coeficientes não viesados e consistentes, uma
vez que a variância do erro não é utilizada para provar que o OLS é não
viesado e consistente.
2. O estimador não será BLUE – não terá a menor variância entre os
estimadores não viesados – a variância dos erros é usada para estimar a
variância dos coeficientes. Ou seja: o erro padrão poderá estar errado.
• Para mais detalhes algébricos sobre tratamento e consequências,
ver: Hill, Griffiths and Judge (1997, pp. 217–18).
www.contabilidademq.blogspot.com
luizfelipe@ccsa.ufpb.br
169
170. Felipe Pontes
www.contabilidademq.blogspot.com
Var(ut) = 2 <
• Dificilmente nós saberemos qual é o tipo da heterocedasticidade.
• Então usamos as seguintes “soluções”:
1. Controle do efeito escala: usando log das variáveis ou (usamos muito em
contabilidade) dividindo as variáveis contábeis pelo ativo total do ano anterior,
pelo número de ações, valor de Mercado etc.
2. Estimando o erro padrão robusto de White (no Eviews), no Stata é HC3 (Davidson
e Mackinnon, 1993). Assim, somos mais “contadores” (ou conservadores) na
rejeição de uma hipótese. Esse procedimento não altera os coeficientes, apenas os
erros padrão.
• Não há alteração nos resíduos, logo não há alteração no R². Essa solução não
resolve o problema de heterocedasticidade, ele estima uma matriz de variância e
covariância robusta.
• regress ermsoft ersandp, vce(hc3)
www.contabilidademq.blogspot.com
luizfelipe@ccsa.ufpb.br
170
171. Felipe Pontes
www.contabilidademq.blogspot.com
Var(ut) = 2 <
– Estime o modelo (planilha macro) regress ermsoft ersandp dprod dcredit dinflation
dmoney dspread rterm
• Execute os testes de heterocedasticidade:
– White: estat imtest, white
– BP: estat hettest
– Rode o mesmo modelo, porém robusto e compare os erros padrão: regress ermsoft
ersandp dprod dcredit dinflation dmoney dspread rterm, vce(hc3)
www.contabilidademq.blogspot.com
luizfelipe@ccsa.ufpb.br
171
175. Felipe Pontes
www.contabilidademq.blogspot.com
Cov (ui , uj) = 0
• Esse pressuposto diz que os erros (resíduos, uma vez que não
sabemos os erros da população) não são correlacionados ao longo
do tempo (ou cross-sectionalmente se esse for o caso dos seus
dados).
www.contabilidademq.blogspot.com
luizfelipe@ccsa.ufpb.br
175
176. Felipe Pontes
www.contabilidademq.blogspot.com
Cov (ui , uj) = 0
DETECÇÃO
• Os testes mais comuns são:
1. Durbin-Watson: capta apenas autocorrelação de primeira ordem (por
padrão); e
2. Breusch-Godfrey: capta autocorrelação superior à primeira ordem (por
padrão).
www.contabilidademq.blogspot.com
luizfelipe@ccsa.ufpb.br
176
177. Felipe Pontes
www.contabilidademq.blogspot.com
Cov (ui , uj) = 0
• O BG é um teste mais geral (ordens maiores do que 1) para
autocorrelação:
N(0, )
• As hipóteses são:
H0 : 1 = 0 e 2 = 0 e ... e r = 0
H1 : 1 0 ou 2 0 ou ... ou r 0
• Passos:
1. Estimar os resíduos da regressão original em OLS;
2. Estime uma nova regressão com os resíduos e as variáveis originais:
3. Calcule a estatística do teste: (T-r)R2 2(r)
4. Se a estatística calculada for maior do que a tabelada, rejeita-se a H0.
www.contabilidademq.blogspot.com
luizfelipe@ccsa.ufpb.br
177
u u u u u v vt t t t r t r t t 1 1 2 2 3 3 ... , 2
v
Quantos lags devo usar? Não existe uma resposta exata para isso. Normalmente se usa a
frequência dos dados. Se for mensal, por exemplo, usar 12.
178. Felipe Pontes
www.contabilidademq.blogspot.com
Cov (ui , uj) = 0
• Não faremos o BG de forma braçal.
quietly regress ermsoft ersandp
estat bgodfrey, lags(1)
estat bgodfrey, lags(12)
** Seguindo a regra da frequência, 12 seria a quantidade correta de lags, uma vez que
os dados são mensais.
estat bgodfrey, lags(30)
estat bgodfrey, lags(100)
** Caso tenhamos uma amostra pequena, deve-se usar a correção small. Não é o
nosso caso agora para esses dados
estat bgodfrey, lags(12) small
estat bgodfrey, lags(30) small
www.contabilidademq.blogspot.com
luizfelipe@ccsa.ufpb.br
178
180. Felipe Pontes
www.contabilidademq.blogspot.com
Cov (ui , uj) = 0
Consequências da autocorrelação no OLS:
1. São semelhantes à heterocedasticidade: estimador consistente e não
viesado.
2. O estimador não é eficiente. Não será BLUE nem em amostras grandes;
3. No caso de autocorrelação positiva, os erros padrão serão viesados para
baixo, com relação aos erros padrão reais, implicando aumento da
probabilidade de ocorrência do Erro do Tipo I e, além disso, aumentará a
probabilidade de o R² estar inflado (porque a variância estará enviesada
para baixo).
www.contabilidademq.blogspot.com
luizfelipe@ccsa.ufpb.br
180
181. Felipe Pontes
www.contabilidademq.blogspot.com
Cov (ui , uj) = 0
Como lidar com a autocorrelação?
1. Usar um modelo GLS (eg Cochrane-Orcutt), porém é preciso saber o tipo de
autocorrelação antes de estimar. Como não sabemos a priori, uma proxy para
isso é o da fórmula do DW, porém é apenas uma aproximação que pode ser
muito errada em amostras pequenas.
2. Semelhante à correção de White, temos a correção de Newey-West, que nos dá
erros padrão robustos para heterocedasticidade e autocorrelação.
www.contabilidademq.blogspot.com
181
O comando para rodar o NW é: newey VD VI1 VI2..., lag(qts forem necessários). Esse
comando não fornece R² e outras medidas, pois ele só afeta os erros-padrão. Então
podemos usar o mesmo R² do OLS comum.
É preciso dizer ao Stata que os dados são séries temporais (tsset ....). Cuidado, pois não
pode haver buracos na série. Se houver buracos, usar a opção “force” após o lag().
Para painel, é preciso instalar o newey2: ssc install newey2
183. Felipe Pontes
www.contabilidademq.blogspot.com
Cov (ui , uj) = 0
• Faça o teste de autocorrelação do seguinte modelo: reg ermsoft
ersandp dprod dcredit dinflation dmoney dspread rterm
• Qual foi a sua conclusão pelo teste?
• Como solucionar o problema?
• Rode agora o seguinte modelo e compare com o anterior: newey
ermsoft ersandp dprod dcredit dinflation dmoney dspread rterm,
lag(12)
www.contabilidademq.blogspot.com
luizfelipe@ccsa.ufpb.br
183
185. Felipe Pontes
www.contabilidademq.blogspot.com
xt não é estocástico
• A priori, as variáveis independentes não devem ser estocásticas.
• Quando é um problema incluir variáveis estocásticas?
– Quando X e u não forem independentes (não forem ortogonais). Ou seja: não
pode haver correlação entre nenhuma variável independente e o termo de
erro.
• Qual é o problema?
– O estimador OLS será inconsistente e enviesado.
www.contabilidademq.blogspot.com
luizfelipe@ccsa.ufpb.br
185
186. Felipe Pontes
www.contabilidademq.blogspot.com
ut ∼ N(0, σ²)
• Para analisar em conjunto a hipótese de zero assimetria e zero excesso
de curtose, Bera e Jarque (1981) (mas chamamos de Jarque-Bera)
desenvolveram um teste:
1. Calculam-se os índices de assimetria e curtose (dos resíduos):
2. Calcula-se a estatística do teste (T é o tamanho da amostra):
www.contabilidademq.blogspot.com
luizfelipe@ccsa.ufpb.br
186
b
E u
1
3
2 3 2
[ ]
/
b
E u
2
4
2 2
[ ]
2~
24
3
6
2
2
2
2
1
bb
TW
187. Felipe Pontes
www.contabilidademq.blogspot.com
ut ∼ N(0, σ²)
• Para testar no Stata é preciso primeiro salvar os resíduos após rodar a
regressão.
reg ermsoft ersandp
** Instalem o Jarque-Bera, pois ele não vem instalado
ssc install jb6
** Para saber mais sobre o teste use o comando "help"
help jb6
** Salve os resíduos em uma variável que chamaremos de "res"
predict residuos, residuals
** Avalie primeiro o histograma com a linha da normalidade
histogram residuos, normal
** Realize o teste. Faça também o Shapiro-Wilk e o SK
jb6 residuos
swilk residuos
sktest residuos
www.contabilidademq.blogspot.com
luizfelipe@ccsa.ufpb.br
187
188. Felipe Pontes
www.contabilidademq.blogspot.com
ut ∼ N(0, σ²)
• Provavelmente os resíduos negativos em mais de 20 (retorno negativo
de 20%, já que estamos trabalhando com isso) causaram a não
normalidade.
• Os retornos também ficaram muito concentrados em torno de zero.
188
0
.02.04.06
Density
-60 -40 -20 0 20 40
Residuals
189. Felipe Pontes
www.contabilidademq.blogspot.com
ut ∼ N(0, σ²)
residuos 325 0.0000 0.0000 . 0.0000
Variable Obs Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
joint
Skewness/Kurtosis tests for Normality
. sktest residuos
.
residuos 325 0.77326 51.863 9.304 0.00000
Variable Obs W V z Prob>z
Shapiro-Wilk W test for normal data
. swilk residuos
.
Jarque-Bera test for Ho: normality: (residuos)
Jarque-Bera normality test: 1705 Chi(2) 0
. jb6 residuos
189
190. Felipe Pontes
www.contabilidademq.blogspot.com
ut ∼ N(0, σ²)
• Vamos analisar mais “profundamente” os resíduos, especificamente a
assimetria e a curtose:
summarize residuos, detail
www.contabilidademq.blogspot.com
luizfelipe@ccsa.ufpb.br
190
99% 22.93196 30.43601 Kurtosis 13.11432
95% 17.05971 25.93606 Skewness -2.428564
90% 11.0482 25.29979 Variance 160.8552
75% 5.840436 22.93196
Largest Std. Dev. 12.68287
50% .9756916 Mean 1.23e-08
25% -3.792569 -60.2392 Sum of Wgt. 325
10% -9.76227 -60.49094 Obs 325
5% -13.93199 -64.82001
1% -60.2392 -66.5228
Percentiles Smallest
Residuals