Curso introdução aos métodos quantitativos aplicados à contabilidade

UNIVERSIDADE FEDERAL DA PARAÍBA
Introdução aos Métodos Quantitativos
Aplicados à Contabilidade
grggggggggggggggggggg
ggggggggg
Luiz Felipe de Araújo Pontes Girão
Objetivo do curso: introduzir os conceitos básicos de métodos quantitativos
usados em pesquisas na área de contabilidade e finanças.
Conteúdo: Dicas iniciais. Revisão de algumas estatísticas descritivas. Coleta e
organização de dados financeiros. Inferência e testes de hipóteses. Modelo
clássico de regressão linear. Exercício Final. Considerações finais.

Felipe Pontes
www.contabilidademq.blogspot.com
Comentário inicial
• Esse é um curso básico e resumido do curso que dou no mestrado de
Métodos Quantitativos I, focando no uso do Stata para análise dos dados.
• Apesar de o foco deste curso ser prático, optei por deixar muitos slides
teóricos para facilitar o estudo posterior por parte de vocês.
• Todavia, mesmo tendo o resumo da teoria nos slides, não deixem de estudar
pelos melhores livros e artigos.
• Materiais adicionais do curso:
https://www.dropbox.com/sh/opgiwpjmfd72g99/AACbyTCHFzf7Il82eguaRlZw
a?dl=0
2

Felipe Pontes
Disponibilização dos slides
• Os slides estão disponíveis no Blog Contabilidade & Métodos
Quantitativos:
www.ContabilidadeMQ.blogspot.com
• Curso na UFPA (dez/2017):
http://contabilidademq.blogspot.com.br/2017/10/curso-de-metodos-
quantitativos.html
3

Felipe Pontes
Uma propaganda antes de iniciar
• Conheça alguns projetos dos quais eu faço parte na UFPB:
1. Programa de Pós-Graduação em Contabilidade (Mestrado e Doutorado, com
conceito 4):
www.ccsa.ufpb.br/ppgcc
2. Revista Evidenciação Contábil & Finanças (B3 no Qualis CAPES, com prazo-
meta de resposta final aos trabalhos de 90 dias):
periodicos.ufpb.br/index.php/recfin
3. Projeto de Extensão Sala de Ações (simulação de uma corretora de valores –
agende visitas, palestras, cursos e “consultorias” pelo Blog):
salaacoes.blogspot.com.br
4

Felipe Pontes
Tópico 1: Dicas Iniciais
5

Felipe Pontes
Tópico 1: Dicas Iniciais
• Esse tópico é um resumo de uma palestra maior sobre pesquisa em
contabilidade.
• Para acessar o material completo da palestra “Pesquisa em
Contabilidade: Dicas e Problemas Comuns”, clique no seguinte link:
https://www.slideshare.net/felipepontes16/pesquisa-em-contabilidade-
dicas-e-falhas-comuns
6

Felipe Pontes
Por que pesquisar?
• Pensem por 10 segundos...
• Dois motivos fundamentais:
1. Resolver problemas práticos ou teóricos
Como chegar no valor de uma empresa ou estimar o valor goodwill ou do capital intelectual (no meu
primeiro ano de graduação eu tentei fazer isso...)
2. Criar ou testar teorias
HME  Finanças Comportamentais // Testes de análise técnica e
fundamentalista

Felipe Pontes
O que fazer para ter uma boa pesquisa?
1. Ter uma ideia viável;
2. Conhecer outros trabalhos que tiveram ideias semelhantes à
sua;
3. Traçar os objetivos da pesquisa;
4. Ter uma teoria que sustente a sua ideia e seus resultados
futuros;
5. Ter uma boa metodologia da pesquisa.
- Encontrei um trabalho muito parecido com a minha ideia, o que fazer?
A LEITURA É ESSENCIAL

Felipe Pontes
Criação e lapidação da ideia de pesquisa
9
Como identificar uma questão de
pesquisa?
http://contabilidademq.blogspot.c
om.br/2016/12/como-identificar-
uma-questao-de-pesquisa.html
Tenho uma ideia geral para a
monografia, mas não sei como
especificar: o que fazer?
om.br/2013/09/tenho-uma-ideia-
geral-para-monografia.html
A ideia da pesquisa é a
parte mais difícil
Mas lapidá-la
não é tão fácil
LEITURA,
MUITA COISA
JÁ FEITA,
RACIOCÍNIO,
FOCO, PERSISTÊNCIA,
CONVERSA,
PENSAR, PENSAR...

Felipe Pontes
Foco e persistência: características essenciais
10
Sobre o foco no trabalho e as
qualidades do pesquisador
om.br/2015/12/sobre-o-foco-no-
trabalho-e-as.html
Andrew Wiles deixou de participar
de eventos, continuou apenas com
suas atividades obrigatórias em
Princeton, trabalhou muito em
casa por muitos anos para resolver
o problema de Fermat.
Ele teve FOCO e PERSISTÊNCIA
para chegar onde queria.
A ideia da pesquisa é a
parte mais difícil
Mas lapidá-la
não é tão fácil
LEITURA,
MUITA COISA
JÁ FEITA,
RACIOCÍNIO,
FOCO, PERSISTÊNCIA,
CONVERSA,
PENSAR, PENSAR...

Felipe Pontes
Metodologia da pesquisa
O que é básico na seção da metodologia:
1. População e amostra;
2. Coleta e tratamento dos dados;
3. Definição das variáveis (proxies)*;
4. Definição dos modelos estatísticos*; e
5. Definição dos testes das hipóteses (em minha
opinião as hipóteses em si devem estar no
referencial teórico).

Felipe Pontes
Não force uma metodologia, mas saia um pouco do comum
Em contabilidade nós costumamos
a ficar muito presos à análise de
regressão, ANOVA, teste t,
distribuição normal etc...
Às vezes até forçadamente: vamos
fazer um artigo usando equações
estruturais?
Às vezes devemos buscar
metodologias de outras áreas para
resolver os nossos problemas,
como a Análise de Redes Sociais
para analisar fraudes.
om.br/2012/03/analise-de-redes-
sociais.html
-0.06-0.04-0.02
0.000.02
ln(COBeps)
0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1

Felipe Pontes
Discuta sobre o seu artigo com o maior número de pessoas quanto for possível!
Por que nós não temos muito destaque na pesquisa
internacional em contabilidade e finanças?
Eu chutaria que um dos principais motivos é a falta
de debate e a rapidez com que publicamos os artigos
em revistas.
Por que não existe debate entre os pesquisadores
no Brasil?
http://contabilidademq.blogspot.com.br/2013/05/p
or-que-nao-existe-debate-entre-os.html
1) Os congressos aprovam muitos trabalhos, o que
limita o tempo das discussões;
2) Os congressos, em geral, só aceitam artigos
inéditos;
3) Não há muita conversa entre pesquisadores;
4) Etc;

Felipe Pontes
Ajude-nos a te ajudar: seja objetivo!
Philip Low é o criador do iBrain,
cuja ideia surgiu na sua tese de
doutorado de 1 página,
reconhecida como a menor tese
da história.
Em busca da objetividade nos
trabalhos científicos
om.br/2015/02/em-busca-da-
objetividade-nos-trabalhos.html
Philip Low e Stephen Hawking

Felipe Pontes
Busque referências e, se puder, escreva em inglês
Em geral, os melhores trabalhos estão publicados em inglês. E
não é porque é “chique”, é pelo alcance.
Se você quer escrever um artigo muito bom e quer que muitas
pessoas leiam, você escreverá em inglês.
Algumas dicas para leitura em língua estrangeira: começar,
Mônica’s Gang, Twitter, MEO, não traduzir tudo, seriados etc.
http://contabilidademq.blogspot.com.br/2013/10/algumas-
dicas-para-leitura-em-lingua.html
Dicas de escrita
http://contabilidadefinanceira.tumblr.com/post/130292069728
/writing-scientific-articles-like-a-native-
english?og=1&fb_action_ids=1211419342207161&fb_action_ty
pes=tumblr-feed%3Apost

Felipe Pontes
Como acompanhar a literatura da sua área
1) Cadastro de email nas principais revistas da
área;
2) Alertas no Google Acadêmico para os
principais autores da área: alerta para novos
artigos e novas citações;
3) Alertas no Google normal e no acadêmico
para o tema da pesquisa; e
4) Seguir os principais autores da área nas
redes sociais, como Facebook, ResearchGate
(RG), Linkedin etc. Eu tenho gostado muito da
RG. Recomendo que façam uma conta por lá
também.
http://contabilidademq.blogspot.com.br/201
6/07/como-acompanhar-as-publicacoes.html

Felipe Pontes
Comunicação entre os usuários
• NOSSA PRINCIPAL FALHA (em minha opinião!)!
• Nós escrevemos para quem? Para os usuários? Para nós mesmos? Para
os nossos pares?
• Sugestões:
– Devemos participar mais de eventos “técnicos”, escrevendo e apresentando com
uma linguagem que seja utilizada pelo mundo fora da Universidade.
– Escrever textos curtos e diretos sobre nossas pesquisas (e.g. USP-RP).
– Escrever blogs pessoais e divulgar seus textos de modo acessível em redes
sociais.
– Etc.

Felipe Pontes
Atenção às normas das Revistas
Na RECFin eu não vou rejeitar um artigo
porque está fora das normas (no máximo
enviarei um email solicitando o ajuste),
porém a não observância disso demonstra
descuido por parte dos autores.
“Se eles não cuidaram disso, talvez não
tenham tido cuidado com o resto.”
Tenho recebido muitas submissões fora das
normas:
1) Verifique as “diretrizes aos autores” antes
de qualquer submissão;
2) Faça mais uma revisão ortográfica e
gramatical;
3) Veja o estilo dos artigos publicados na
última edição da revista, como eles estão
escritos e formatados; e
4) Não tenha receio de conversar
com o Editor da Revista.

Felipe Pontes
Referências adicionais para o tópico
Todo doutorando e mestrando deveria ler os artigos abaixo (antes mesmo de
ingressar no Programa):
• BRADBURY, Michael E. Why you don’t get published: an editor’s
view. Accounting & Finance, v. 52, n. 2, p. 343-358, 2012.
• COCHRANE, John H. Writing tips for Ph.D. students. University of Chicago,
2005.
• EVANS, John Harry et al. Points to Consider When Self‐Assessing Your
Empirical Accounting Research. Contemporary Accounting Research, v. 32, n.
3, p. 1162-1192, 2015.

Felipe Pontes
Tópico 2: Revisão de Algumas Estatísticas Descritivas
20

Felipe Pontes
Tópico 2: Revisão de Algumas Estatísticas Descritivas
• O material completo usado nas aulas poderá ser encontrado no
seguinte link:
• http://contabilidademq.blogspot.com.br/2017/03/materiais-da-aula-
de-estatisticas-descritivas-stata.html
21

Felipe Pontes
O que é econometria?
• O conceito está relacionado com mensuração em economia (BROOKS,
2014).
• Em nosso caso, os Métodos Quantitativos Aplicados estão relacionados
com a econometria financeira, que aplica ferramentas estatísticas para
auxiliar (testar teorias) na resolução de problemas contábeis e
financeiros.
• Exemplos de aplicações recentes no Brasil:
– Verificar como são evidenciadas as informações gerenciais publicadas na nota
explicativa de informações por segmento nas empresas brasileiras (AILON et al.,
2015).
– Verificar a influência da convergência internacional na suavização dos lucros
(KLAN; BEUREN, 2015).
– Identificar os fatores determinantes da qualidade dos trabalhos dos auditores
nas instituições bancárias brasileiras (DANTAS; MEDEIROS, 2015).
– Etc.
22

Felipe Pontes
Tipos de dados
• De forma ampla, nós trabalhamos com 3 tipos de dados.
1. Séries temporais
– Qual é o efeito do anúncio do pagamento de dividendos no preço da ação de uma
companhia? (e.g. poderia fazer em 10 anos)
2. Cross-section
– Qual é o efeito da cobertura dos analistas no nível de assimetria informacional? (e.g.
das empresas brasileiras em 2017)
– Geralmente os dados de pesquisas gerenciais e de questionários são assim
3. Dados em painel
– Qual é o efeito da cobertura dos analistas no nível de assimetria informacional ao
longo do tempo?
23Como cada um deles se apresenta em uma planilha?
Isso é importante, na hora de preparar seus dados
para análise

Felipe Pontes
Retornos na modelagem financeira
• Por alguns problemas estatísticos, é preferível trabalhar com retornos,
no lugar de preços. Além disso, o retorno é uma medida padronizada de
análise (preço é um conjunto de informações).
• Como calcular o retorno:
• O p é o “preço puro” ou o “preço ajustado aos proventos”?
• Se usarmos o “preço puro”, subestimares o retorno total obtido pelo
investimento naquele ativo!
24
%100
1
1





t
tt
t
p
pp
R
Simples: Contínuo:
%100ln
1







t
t
t
p
p
R

Felipe Pontes
Retornos na modelagem financeira
• Ignorar os dividendos, no longo prazo, implicará em favorecimento das
“growh stocks” (que geram altos ganhos de capital), em detrimento das
“income stocks” (que pagam muitos dividendos).
25

Felipe Pontes
Formação de um modelo
26
Teoria ecômica, contábil ou financeira
Formulação de um modelo estimável
Coleta dos dados
Estimação do modelo
O modelo é estatisticamente adequado?
Não Sim
Reformule o modelo Interprete o modelo
Use para a análise
Exemplo:
Modelo de Ohlson (1995)
Adaptado de Brooks (2014)

Felipe Pontes
O que é “estatística descritiva”?
• É uma parte muito importante da nossa pesquisa, que é muitas vezes
negligenciada em nossos artigos (o que eu costumo fazer para não
retirar as descritivas e não consumir espaço com gráficos e tabelas?).
• Estatística inferencial (indutiva) x Estatística descritiva
• Alguns bons journals de Psicologia estão “eliminando” a estatística
inferencial e cobrando apenas uma boa estatística descritiva. Veja aqui.
27

Felipe Pontes
Grupos de estatísticas descritivas
• Segundo Fávero et al. (2014), existem 4 grupos:
28
1) Medidas de tendência
2) Medidas de dispersão
3) Assimetria
4) Curtose
A assimetria normal é ZERO e a curtose
normal é TRÊS

Felipe Pontes
Que tipo de informações podemos ter?
• Vejamos aqui uma análise descritiva e que tipo de informações
podemos tirar dela.
• Existem evidências de negociações anormais no caso da JBS?
• http://contabilidademq.blogspot.com.br/2017/10/existem-evidencias-
de-negociacoes.html
29

Felipe Pontes
Tendência central
Média:
• A média é a medida mais conhecida de tendência central e é conhecida
como o valor “típico” de uma série.
• A média pode ser influenciada por valores extremos (exemplos?!) e por
isso poderá não representar a maioria dos dados, cuidado! (e.g. o MCRL
usa valores médios, a regressão quantílica não).
30
n
X
n
XXX
X
n
i
i
n



 121 ...

Felipe Pontes
Tendência central
Mediana:
• É o valor que divide um rol de dados no meio.
• É mais robusta (menos sensível a outliers) do que a média.
• Qual é a mediana nos dois casos abaixo?
3 – 3 – 3 – 6 – 5 – 7 – 7
3 – 3 – 3 – 6 – 5 – 7– 7 – 7
31
O Boletim Focus usa a mediana (bom exemplo de estatísticas descritivas)

Felipe Pontes
Tendência central
Moda:
• É o valor mais frequente na amostra.
• Uma série de dados pode ser classificada como amodal, unimodal,
bimodal ou multimodal.
32

Felipe Pontes
Dispersão
• A análise apenas da tendência central não nos diz muita coisa. Duas
amostras podem ter a mesma média, mas podem ter perfis diferentes
por causa da dispersão dos dados em torno da média.
• A análise da dispersão é particularmente importante em Finanças
(lembram do Big Bang da Moderna Teoria Financeira?).
• Quanto maior a dispersão dos retornos de um ativo em torno de sua
média, mais arriscado ele será.
33

Felipe Pontes
Amplitude (range):
• É a medida mais simples e muito sensível aos outliers (Maior obs –
Menor obs).
Variância:
Desvio-padrão:
• Para facilitar a análise, padroniza-se a variância, para que ela volte à
forma de mensuração original, extraindo a raiz quadrada da variância.
1
)(
1
2
2




n
XX
s
n
i
i
Dispersão
34
As duas últimas são sensíveis aos outliers,
porém menos que a amplitude
Degrees of freedom
correction – por
estarmos usando uma
amostra
Calculem para os dados do slide 26 - Excel

Felipe Pontes
Dispersão
Coeficiente de variação:
• “Padroniza” o desvio-padrão pela média, de modo que possamos
comparar a dispersão de um grupo com o de outro.
• Existem outras medidas específicas em Brooks (2014, p.64).
35
Média
s
CV 

Felipe Pontes
Assimetria e Curtose
Distribuição normal:
• Se as observações se distribuírem normalmente, a média (1º momento)
e a variância (2º momento) são suficientes para descrever a série.
36

Felipe Pontes
• Quando a distribuição não é normal, nós precisamos de uma análise
detalhada da assimetria (3º momento) e da curtose (4º momento)
(BROOKS, 2014).
37

Felipe Pontes
• Assimetria (Skewness): define a forma da distribuição e define o quanto
ela é não simétrica em relação à média.
38
Por ser sensível a valores extremos, a média “puxa” a
distribuição para o seu lado.

Felipe Pontes
• Nível de Assimetria: quanto mais distante de zero, mais assimetria
haverá.
39

Felipe Pontes
• Curtose (Kurtosis): mede o “peso” das caudas da distribuição e quão
“pontiaguda” em torno da média a série é.
• Uma distribuição normal tem coeficiente de curtose igual a 3 e excesso
de curtose igual a 0 (K - 3) (BROOKS, 2014).
40
www.vosesoftware.com

Felipe Pontes
41
mvpprograms.com www.signalfinancialgroup.com
Existem alguns testes formais que usam esses dois momentos
para testar se a distribuição é normal ou não.
Maior prob. de ter valores
próximos da média e
outliers. Coef > 0
Menor prob. de ter
valores próximos da média
e de ter outliers . Coef < 0

Felipe Pontes
Medidas de associação
• As 4 medidas anteriores são importantes para resumir os dados de
forma isolada, porém é importante analisá-las em conjunto.
• Em finanças, essas medidas são particularmente importantes na análise
do risco e do retorno (Big Bang).
• É também importante efetuar essa análise prévia antes da análise de
regressão, para evitar alguns problemas ou ter ideia do que está por vir.
42

Felipe Pontes
Medidas de associação
• Covariância:
• Correlação (vejamos isso e isso, se a internet deixar):
43

Felipe Pontes
Exercício de estatísticas descritivas
• Vamos usar o do-file de estatísticas descritivas para praticar.
44

Felipe Pontes
Tópico 3: Coleta e Organização de Dados Financeiros
45

Felipe Pontes
Variáveis:
NI = lucro líquido
ΔNIit= variação no NI de t-1 a t
ΔNIit-1 = variação no NI de t-2 a t-1
DΔNIit-1 = dummy que assume 1 quando ΔNIit-1
negativa
PLit = PLit – NIit
La
it = Niit – CPP* Plit-1
pit = preço da ação (cuidado com a data)
OBS: Todas as variáveis são ponderadas pelo
Ativo total de t-1.
COLETA DE DADOS FINANCEIROS
I. Visão geral da Economatica®;
II. Inclusão de filtros;
III. Seleção das informações contábeis e de mercado:
i. Utilizaremos o modelo Ball e Shivakumar (2007) – BSm e uma adaptação do
modelo de Ohlson (1995) - Om, considerando o custo do capital próprio (CPP)
igual a 12%, a título de exemplo.
ii. BSm: ΔNIit = α0 + α1DΔNIit-1 + α2ΔNIit-1 + α3ΔNIit-1* DΔNIit-1 + εi
iii. Om: pit = α0 + β1PLit + β2La
it + εit
46
Salvaremos cada ano em uma
aba da planilha!

Felipe Pontes
COLETA DE DADOS FINANCEIROS
• Nesse link (http://goo.gl/ZW7DdH) vocês encontrarão o material
completo com o passo a passo e os printscreens das telas.
• Existem bases de dados gratuitas também:
– Fundamentus: http://www.fundamentus.com.br
– Pacote do R para coletar informações financeiras trimestrais:
http://contabilidademq.blogspot.com.br/2017/11/pacote-no-r-para-coletar-
itrs.html
47

Felipe Pontes
ORGANIZAÇÃO DOS DADOS
• Empilhamento dos dados para a montagem do painel (matriz) (já que não
estamos com acesso às bases na sala, vamos criar uma base com dados para
os anos de 2013 a 2015, depois seguimos os passos abaixo):
1. Criar um código de identificação (ID) para cada empresa. É importante que seja
numérico, pois é aceito na maior parte dos softwares. Ou você pode fazer isso direto
no Stata;
2. Criar uma coluna em cada aba da planilha referente ao seu ano;
3. Após efetuar os procedimentos 1 e 2 em ambas, realiza-se o empilhamento dos dados;
4. Para evitar maiores problemas (supondo o uso do GRETL), mantenha na planilha
apenas as variáveis de interesse – retirando as colunas/vetores com letras;
5. Retire também as observações sem valores (alguns softwares fazem isso
automaticamente).
48

Felipe Pontes
ORGANIZAÇÃO DOS DADOS
• Separação dos grupos para testes de médias.
• Passos:
1. Em uma coluna inserimos as observações da nossa variável de interesse; e
2. Inserimos os códigos que diferenciam os grupos na coluna do lado.
• Exemplo:
49
Variável a ser testada (X1) Grupo
12 1
10 1
12 1
9 2
8.5 2
9 2
Ver também o arquivo “Exemplo teste de
média - variações no caixa-meta”

Felipe Pontes
Tópico 4: Inferência e Testes de Hipóteses
50

Felipe Pontes
Tópico 4: Inferência e Testes de Hipóteses
seguinte link:
• http://contabilidademq.blogspot.com.br/2017/03/inferencia-estatistica-
stata-materiais-da-aula.html
51

Felipe Pontes
Inferência
• O que é?
– É o processo de generalizar os resultados da população a partir de uma amostra.
• Como fazemos isso?
– Testando algumas hipóteses.
52

Felipe Pontes
Que tipo de informação a inferência nos dá?
• Vejamos mais uma vez o caso das ações da JBS:
• Explorando mais algumas evidências sobre o caso de “insider trading”
na JBS.
• http://contabilidademq.blogspot.com.br/2017/10/explorando-mais-
algumas-evidencias.html
53

Felipe Pontes
Hipótese de pesquisa x hipótese estatística
• A hipótese estatística é aquela que utilizamos nos testes estatísticos
(SIC!), enquanto que a de pesquisa é formulada a partir da teoria que
utilizamos como base para o nosso artigo.
• Exemplos:
– H0: p = 0 (hipótese nula)
– H1: p ≠ 0 (hipótese alternativa)
– H0: não houve uma melhoria na qualidade das informações contábeis após a
convergência contábil internacional
– H1: houve uma melhoria na qualidade das informações contábeis após a
convergência contábil internacional
54
Nós REJEITAMOS ou NÃO REJEITAMOS as hipóteses
Uma pode ser usada para testar a outra

Felipe Pontes
Teste de hipóteses e tipos de erros
55
Fonte:
Scientific Illustration for the Research
Scientist | somersault18:24
Quanto maior for o a, menor
será a chance do Erro do
Tipo I acontecer

Felipe Pontes
Testes de hipóteses
• E assim começa esse artigo...
ppgcc@ccsa.ufpb.br
56
Baseado em Wasserstein e Lazar (2016)

Felipe Pontes
Definição do p-value: (…) is the probability under a specified statistical model
(hipótese nula) that a statistical summary of the data (for example, the sample mean
difference between two compared groups) would be equal to or more extreme than its
observed value.
• Além do p, é importante verificar o size effect (R², diferença entre as médias e as
categorias, tamanho dos coeficientes) e o intervalo de confiança.
Statistical significance is the least interesting thing about the results. You should describe the results
in terms of measures of magnitude –not just, does a treatment affect people, but how much does it
affect them.
-Gene V. Glass1
The primary product of a research inquiry is one or more measures of effect size, not P values.
-Jacob Cohen2
• Adicionalmente, veja o critério M.A.G.I.C. (MUITO IMPORTANTE AVALIAR ISSO NOS
ARTIGOS!)
57
Baseado em Wasserstein e Lazar (2016)

Felipe Pontes
ppgcc@ccsa.ufpb.br
58
Fonte:
www.psychstat.missouristate.edu

Felipe Pontes
ppgcc@ccsa.ufpb.br
59
Fonte:
www.portalaction.com.br

Felipe Pontes
ppgcc@ccsa.ufpb.br
60
Fonte:
www.portalaction.com.br

Felipe Pontes
• Wasserstein e Lazar (2016) concluem o artigo da seguinte forma
(adaptado por mim):
Uma boa prática estatística, como um componente essencial da boa prática
científica, deve enfatizar:
1. Princípios de uma boa metodologia
2. Uma variedade de descrições gráficas e numéricas dos dados (costumamos
fazer testes de robustez/sensibilidade)
3. Entendimento do fenômeno em estudo (quem tem teoria tem tudo!)
4. Interpretação dos resultados com o contexto da pesquisa (teoria, ambiente
informacional, regulação etc)
5. Full disclosure
6. Entendimento lógico e quantitativo para interpretar o que a análise dos dados
quer dizer (a rejeição da hipótese pode ser devida ao size effect ou sampling
error, mas o p-value não nos diz nada sobre isso, apenas rejeita a H0)
7. Nenhum single index (a exemplo do p-value) deve substituir a razão científica.
61
p-hacking

Felipe Pontes
• Na prática, os softwares já nos dão o p-value.
O que podemos inferir a partir dos resultados apresentados?
lnvm 394 0.4364 0.1047 3.25 0.1971
Variable Obs Pr(Skewness) Pr(Kurtosis) adj chi2(2) Prob>chi2
joint
Skewness/Kurtosis tests for Normality
. sktest lnvm
valor_de_m~o 394 0.0000 0.0000 . 0.0000
joint
. sktest valor_de_mercado
62
Pr(Skewness)  H0: Assimetria é
igual à de uma distribuição
normal
Pr(Kurtosis)  H0: Curtose é
igual à de uma distribuição
normal
Joint  H0: em conjunto, a
assimetria e curtose são iguais à
de uma normal
Sktest é baseado em D’Agostino, Belanger, and D’Agostino (1990)

Felipe Pontes
PARAMÉTRICOS
• Utilizamos esses testes quando atendemos aos pressupostos da
normalidade e da homocedasticidade, basicamente.
• Existem autores que dizem que em amostras grandes (maiores que 30,
50, 100, depende do autor – já vi 10!) podemos pressupor a
normalidade (PESTANA; GAGEIRO, 2009).
• No caso da ocorrência da heterocedasticidade, podemos estimar o teste
robusto em alguns casos (e.g. ANOVA de Welch).
63
É preciso atribuir códigos numéricos aos grupos – ver o arquivo
“Exemplo (QIC)”

Felipe Pontes
• Para testar médias, precisamos converter a diferença entre as médias
de duas amostras em termos de desvio padrão.
• Para saber se essa diferença amostral é estatisticamente significativa
(se é uma diferença real e não é apenas um erro amostral), é preciso
estabelecer um nível de significância (geralmente 5% na nossa área)
e testar contra o z tabelado.
ppgcc@ccsa.ufpb.br
64
z =
𝑋1 − 𝑋2
𝜎 𝑋1−𝑋2

Felipe Pontes
Passos para o teste de médias (H0: m1 = m2):
• 1º Calcular a média de cada amostra
• 2º Calcular a variância dos escores brutos:
𝑠2
=
𝑋2
𝑁
− 𝑋²
• 3º Calcular o erro padrão da diferença entre as médias:
𝑠 𝑋1− 𝑋2
=
𝑁1 𝑠1
2+𝑁2 𝑠2
2
𝑁1+𝑁2−2
𝑁1+𝑁2
𝑁1 𝑁2
• 4º Calcular a razão t (gl = N1 + N2 - 2):
65
𝑡 =
𝑋1 − 𝑋2
𝑠 𝑋1−𝑋2
Nota Turma 1 Nota Turma 2
8 8
10 7
7 7
6 5
10 3
Avaliem se as médias dessas
turmas são estatisticamente
diferentes, ao nível de 5% e
20%.
P.s.: teste bilateral, divida o
alfa por 2.
Isso é importante para vocês saberem que não
basta os números serem diferentes!

Felipe Pontes
• Para rodar o teste no Stata, preciso organizar a planilha:
66
Notas
Grupo
(turmas)
8 1
10 1
7 1
6 1
10 1
8 2
7 2
7 2
5 2
3 2

Felipe Pontes
Pr(T < t) = 0.9479 Pr(|T| > |t|) = 0.1041 Pr(T > t) = 0.0521
Ha: diff < 0 Ha: diff != 0 Ha: diff > 0
Ho: diff = 0 degrees of freedom = 8
diff = mean(1) - mean(2) t = 1.8333
diff 2.2 1.2 -.567205 4.967205
combined 10 7.1 .6741249 2.13177 5.575023 8.624977
2 5 6 .8944272 2 3.516672 8.483328
1 5 8.2 .8 1.788854 5.978844 10.42116
Group Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
Two-sample t test with equal variances
. ttest mediaturmas, by(turmas)
ppgcc@ccsa.ufpb.br
67
𝑆𝐸 = 𝜎
𝑛
O que acontece quando
aumentamos o tamanho
de n?
Insira os dados do slide anterior
no Stata e rode o teste

Felipe Pontes
• Se a planilha estiver organizada assim:
• O comando seria: ttest var1==var2, unpaired
68
Nota Turma 1
(var1)
Nota Turma 2
(var2)
8 8
10 7
7 7
6 5
10 3

Felipe Pontes
Ajuste para variâncias desiguais
• No teste anterior nós combinamos as variâncias de duas amostras,
presumindo que 𝜎1
2
= 𝜎2
2
, como não sabemos a variância da população,
utilizamos a das amostras para aproximar.
• Teste de homogeneidade das variâncias: Levene.
• Em caso de heterogeneidade, o erro padrão é calculado dessa forma,
sem combinar as variâncias:
• Refaça o exercício das notas das turmas considerando que as variâncias
são heterogêneas. Considere os mesmos gl neste exercício.
ppgcc@ccsa.ufpb.br
69
𝑠 𝑋1− 𝑋2
=
𝑠1
2
𝑁1 − 1
+
𝑠2
2
𝑁2 − 1

Felipe Pontes
Pr(T < t) = 0.9515 Pr(|T| > |t|) = 0.0971 Pr(T > t) = 0.0485
Ho: diff = 0 Welch's degrees of freedom = 9.85366
diff = mean(1) - mean(2) t = 1.8333
diff 2.2 1.2 -.479159 4.879159
combined 10 7.1 .6741249 2.13177 5.575023 8.624977
2 5 6 .8944272 2 3.516672 8.483328
1 5 8.2 .8 1.788854 5.978844 10.42116
Two-sample t test with unequal variances
. ttest mediaturmas, by(turmas) unequal welch
ppgcc@ccsa.ufpb.br
70Insira os dados do slide anterior

Felipe Pontes
W10 = 0.09090909 df(1, 8) Pr > F = 0.77071328
W50 = 0.00000000 df(1, 8) Pr > F = 01
W0 = 0.09090909 df(1, 8) Pr > F = 0.77071328
Total 7.1 2.1317703 10
2 6 2 5
1 8.2 1.7888544 5
turmas Mean Std. Dev. Freq.
Summary of mediaturmas
. robvar mediaturmas, by(turmas)
71
W0 é Levene e W50 é o teste de
Brown.
Com base nisso, devemos
rejeitar ou não rejeitar a
homogeneidade das variâncias?

Felipe Pontes
Amostras dependentes (emparelhadas)
• O teste t anterior era utilizado para amostras independentes (turma 1 x
turma 2, liberais x conservadores, BRA x EUA etc). Agora o teste é para a
mesma amostra, mas em momentos distintos (exemplos?).
• Passos para testar amostras dependentes:
1. Calcule a média para cada ponto no tempo
2. Calcule o desvio padrão para a diferença entre o “tempo” 1 e o “tempo” 2 (D):
𝑠 𝐷 =
𝐷2
𝑁
− 𝑋1 − 𝑋2 ²
3. Calcule o erro padrão da diferença entre as médias: 𝑠 𝐷=
𝑠 𝐷
𝑁−1
4. Calcule o t: 𝑡 =
𝑋1− 𝑋2
𝑠 𝐷
5. Faça o teste com base nos gl e a 1%, 5% e 10%.
72
Antes Depois
2 1
1 2
3 1
3 1
1 2
4 1

Felipe Pontes
Pr(T < t) = 0.8984 Pr(|T| > |t|) = 0.2031 Pr(T > t) = 0.1016
Ha: mean(diff) < 0 Ha: mean(diff) != 0 Ha: mean(diff) > 0
Ho: mean(diff) = 0 degrees of freedom = 5
mean(diff) = mean(var1 - var2) t = 1.4639
diff 6 1 .6831301 1.67332 -.7560417 2.756042
var2 6 1.333333 .2108185 .5163978 .7914071 1.87526
var1 6 2.333333 .4944132 1.21106 1.062404 3.604263
Variable Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
Paired t test
. ttest var1==var2
73
Para esse teste não é possível usar a opção by()

Felipe Pontes
• Teste com os dados da planilha “AULA 3 - INFERÊNCIA - APLICAÇÕES
PRÁTICAS1”, aba “teste t emparelhado”.
• Com esses mesmos dados, use o teste t para amostras independentes e
compare os resultados.
74

Felipe Pontes
. ttest PL_BRGAAP== PL_IFRS, unpaired
Pr(T < t) = 0.0006 Pr(|T| > |t|) = 0.0011 Pr(T > t) = 0.9994
mean(diff) = mean(PL_BRGAAP - PL_IFRS) t = -3.7212
diff 24 -1086786 292051.9 1430756 -1690941 -482630.4
PL_IFRS 24 4131858 968765.7 4745963 2127814 6135903
PL_BRG~P 24 3045073 772850 3786176 1446311 4643835
Paired t test
. ttest PL_BRGAAP== PL_IFRS
75

Felipe Pontes
76
.
Pr(T < t) = 0.1925 Pr(|T| > |t|) = 0.3851 Pr(T > t) = 0.8075
diff = mean(PL_BRGAAP) - mean(PL_IFRS) t = -0.8770
diff -1086786 1239276 -3581318 1407747
combined 48 3588465 618113.5 4282416 2344981 4831949
PL_IFRS 24 4131858 968765.7 4745963 2127814 6135903
PL_BRG~P 24 3045073 772850 3786176 1446311 4643835
. ttest PL_BRGAAP== PL_IFRS, unpaired
Pr(T < t) = 0.0006 Pr(|T| > |t|) = 0.0011 Pr(T > t) = 0.9994

Felipe Pontes
Testes unilaterais
• A diferença básica está na forma como as hipóteses são apresentadas e
no tipo de tabela t que é usada, porém a matemática é igual.
• O teste bilateral diz que existem diferenças (e.g. existem diferenças no PL
após a adoção das IFRS).
• O teste unilateral nos diz em que sentido essa diferença está, (e.g. os AD
são menores após a adoção das IFRS).
ppgcc@ccsa.ufpb.br
77
Fonte: LFF (2012)

Felipe Pontes
Testes unilaterais
Felipe Pontes
78

Felipe Pontes
Testes unilaterais
• Passos para testar amostras dependentes de forma unilateral:
1. Calcule a média para cada ponto no tempo
2. Calcule o desvio padrão para a diferença entre o “tempo” 1 e o “tempo” 2
(D): 𝑠 𝐷 =
𝐷2
𝑁
− 𝑋1 − 𝑋2 ²
3. Calcule o erro padrão da diferença entre as médias: 𝑠 𝐷=
𝑠 𝐷
𝑁−1
𝑋1− 𝑋2
𝑠 𝐷
ppgcc@ccsa.ufpb.br
79
Estudante Antes Depois
1 58 66
2 63 68
3 66 72
4 70 76
5 63 78
6 51 56
7 44 69
8 58 55
9 50 55
Teste se depois do reforço
houve melhora nas notas:
Teste:
H0: O reforço não melhora a média dos alunos (mA = mD)
H1: O reforço melhora a média dos alunos (mA < mD)

Felipe Pontes
Pr(T < t) = 0.0079 Pr(|T| > |t|) = 0.0157 Pr(T > t) = 0.9921
mean(diff) = mean(var1 - var2) t = -3.0542
diff 9 -8 2.619372 7.858117 -14.04028 -1.959717
var2 9 66.11111 2.969495 8.908485 59.26344 72.95878
var1 9 58.11111 2.805968 8.417904 51.64054 64.58169
Paired t test
. ttest var1==var2
Testes unilaterais
ppgcc@ccsa.ufpb.br

Felipe Pontes
Testes unilaterais
• Passos para testar amostras independentes de forma unilateral:
1. Calcule a média para cada amostra.
2. Calcule o desvio padrão amostral de cada amostra: 𝑠 =
𝑋2
𝑁
− 𝑋²
3. Calcule o erro padrão da diferença entre as médias: 𝑠 𝑋1− 𝑋2
=
𝑁1 𝑠1
2+𝑁2 𝑠2
2
𝑁1+𝑁2−2
𝑁1+𝑁2
𝑁1 𝑁2
𝑋1− 𝑋2
𝑠 𝑋1− 𝑋2
6. H0: m1 = m2 // H1: m2 > m1
ppgcc@ccsa.ufpb.br
81
8 8
10 7
7 7
6 5
10 3
Avaliem se a média da T1 é
maior do que a T2, a 1%, 5% e
10%.

Felipe Pontes
Testes unilaterais
Pr(T < t) = 0.9479 Pr(|T| > |t|) = 0.1041 Pr(T > t) = 0.0521
diff = mean(1) - mean(2) t = 1.8333
diff 2.2 1.2 -.567205 4.967205
combined 10 7.1 .6741249 2.13177 5.575023 8.624977
2 5 6 .8944272 2 3.516672 8.483328
1 5 8.2 .8 1.788854 5.978844 10.42116
. ttest mediaturmas, by(turmas)

Felipe Pontes
Testes unilaterais
• Teste no Stata se a média da turma 1 é maior do que a da turma 2.
83
8 3
10 2
7 0
6 5
10 3

Felipe Pontes
Pressupostos do t
1. O z e o t são utilizados para comparar médias entre duas amostras
independentes ou de uma mesma amostra medida em dois “tempos”
diferentes.
2. Esse teste é indicado para dados intervalares, não para nominais ou
ordinais (para este existem evidências mostrando o contrário – ver
próximo slide).
3. É recomendado que se use uma amostragem aleatória (na prática isso
não é um problema recorrente).
4. Para amostras pequenas (o que é isso?) os dados têm que ser
normalmente distribuídos.
5. As variâncias precisam ser homogêneas (existem correções para isso no
teste t ou usando uma versão não paramétrica – há controvérsias).
84

Felipe Pontes
Relaxando alguns pressupostos…
1. Em amostras grandes podemos relaxar a normalidade e a homocedasticidade
tem alguns ajustes fáceis de se fazer nos softwares.
2. Sobre o teste t com dados ordinais, temos versões não paramétricas (MW e
Wilcoxon - MWW), porém há como se argumentar o uso do teste t (mas com
cuidado) (Winter, Dodou, 2010):
a) Para distribuições muito não normais (e.g. exponencial) ou com outliers, MWW tem mais
poder (Blair & Higgins, 1980; Bridge & Sawilowsky, 1999; MacDonald, 1999; Neave &
Granger, 1968);
b) Testes não paramétricos são melhores para amostras pequenas e o t melhora à medida
que a amostra aumenta, pelo Teorema do Limite Central (Lumley, Diehr, Emerson, & Chen,
2002), porém há evidências de que MWW também melhoram o poder em amostras
grandes (Nanna, Sawilowky, 1998); e
c) MWW tem a mesma interpretação do t, após fazer o rankeamento das amostras (pois
existe a versão na mediana desse teste);
d) Especificamente para escalas Likert de 5 pontos: não devemos perder nosso sono com esse
tipo de “problema” (Winter, Dodou, 2010).
85

Felipe Pontes
ANOVA
• Quantos grupos nós estávamos comparando com o teste t?
• Na ANOVA nós podemos comparar mais de 2 grupos! Isso é um
diferencial muito importante em nossas pesquisas. Não podemos
simplesmente fazer vários testes t:
– Perdemos “poder” no teste, pois perderemos graus de liberdade em cada teste;
– Aumentamos a chance de cometer um erro do tipo I, por erro na composição da
amostra. A ANOVA mantém a probabilidade do erro do tipo I constante.
• Na ANOVA nós usamos o teste F, no lugar do t.
86

Felipe Pontes
ANOVA
Procedimentos para a ANOVA:
• Cálculo das somas dos quadrados
– 𝑆𝑄𝑡𝑜𝑡𝑎𝑙 = (𝑋 − 𝑋𝑡𝑜𝑡𝑎𝑙)²
– 𝑆𝑄 𝑑𝑒𝑛𝑡𝑟𝑜 = (𝑋 − 𝑋 𝑔𝑟𝑢𝑝𝑜)²
– 𝑆𝑄 𝑒𝑛𝑡𝑟𝑒 = 𝑁𝑔𝑟𝑢𝑝𝑜( 𝑋𝑔𝑟𝑢𝑝𝑜 − 𝑋𝑡𝑜𝑡𝑎𝑙)²
• Média quadrática (variância)
– 𝑀𝑄 𝑒𝑛𝑡𝑟𝑒 =
𝑆𝑄 𝑒𝑛𝑡𝑟𝑒
𝑘−1
, em que k é o número de grupos
– 𝑀𝑄 𝑑𝑒𝑛𝑡𝑟𝑜 =
𝑆𝑄 𝑑𝑒𝑛𝑡𝑟𝑜
𝑁−𝑘
• Razão F (F calculado)
– 𝐹 =
𝑀𝑄 𝑒𝑛𝑡𝑟𝑒
𝑀𝑄 𝑑𝑒𝑛𝑡𝑟𝑜
87
Compara as variações entre e dentro dos grupos
Fonte de variação SQ gl MQ F
Entre 1.685 3 561,67 20,24
Dentro 444 16 27,75
Total 2.129 19
A satisfação com a vida difere de acordo com o
estado civil? Faça o teste e decida, a 1% e 5%.
Percebam que a tabela da ANOVA é
composta por valores positivos – variância.

Felipe Pontes
ANOVA
• Existem dois modelos de ANOVA:
– Modelo de efeitos fixos: definimos a priori os grupos (é o padrão).
– Modelo de efeitos aleatórios: os grupos são definidos aleatoriamente.
ppgcc@ccsa.ufpb.br
88

Felipe Pontes
ANOVA
• Verifique se há discriminação no emprego de pessoas do sexo
masculino e feminino. Você aplicou um questionário com alguns
empresários em que foram usados 3 tipos de nomes: masculino,
feminino e um nome neutro (grupo de controle), porém os currículos
eram iguais exceto pelo nome do candidato. Teste a normalidade e a
homogeneidade das variâncias antes.
89
Nota do currículo
Masculino
Nota do currículo
Neutro
Nota do currículo
Feminino
6 2 3
7 5 2
8 4 4
6 3 4
4 5 3
Média = 6,2 3,8 3,2
Rode direto no Stata

Felipe Pontes
ANOVA
var1 15 0.3240 0.9213 1.08 0.5817
joint
. sktest var1
90

Felipe Pontes
ANOVA
Bartlett's test for equal variances: chi2(2) = 1.1517 Prob>chi2 = 0.562
Total 43.6 14 3.11428571
Within groups 18.4 12 1.53333333
Between groups 25.2 2 12.6 8.22 0.0056
Source SS df MS F Prob > F
Analysis of Variance
. oneway var1 var2, bonferroni scheffe sidak
91

Felipe Pontes
ANOVA
• Rode agora o seguinte comando: oneway var1 var2, tabulate
92

Felipe Pontes
ANOVA
• O teste F é um teste múltiplo. Se for rejeitada a hipótese de igualdade
(H0: 𝜇1 = 𝜇2 = 𝜇3, H1: 𝜇𝑖 ≠ 𝜇 𝑗), sabemos que pelo menos um grupo
tem média diferente. Mas qual ou quais? O que você faria para
descobrir quais são os pares diferentes?
• Para resolver esse problema usamos os testes post hoc, que se baseiam
nas medidas utilizadas para o cálculo do teste F (não devemos usar
vários testes t, por aumentar a chance do erro tipo I).
• São inúmeros. Recomendação: quando for usar, observe bem seus
dados e escolha o mais adequado.
93

Felipe Pontes
ANOVA – Post hocs
• Bonferroni: é apropriado quando o número de comparações ( 𝑘∗(𝑘−1)
2) é
maior do que os graus de Liberdade entre os grupos (k-1). É muito
conservador e seu poder diminui à medida que o número de comparações
aumenta. Não requer que a ANOVA tenha sido significante. Tem um bom
controle do erro tipo I.
• LSD de Fisher: é o mais liberal de todos. É mais apropriado para quando
temos 3 grupos. É como se usássemos múltiplos testes t (ou seja, não
tenta controlar o erro tipo I). Requer que a ANOVA tenha sido significante.
• Newman-Keuls (SNK): é apropriado quando o número de comparações
excede os graus de liberdade. Se você não quer ser tão conservador
quanto o Bonferroni, ele é uma boa escolha. Ou seja… é muito liberal.
94

Felipe Pontes
ANOVA – Post hocs
• HSD de Tukey: controla bem o erro do tipo I. É apropriado para um
grande número de grupos. É o post hoc mais popular.
• WSD de Tukey: é indicado quando temos mais de k-1 e menos do
que 𝑘∗(𝑘−1)
2 comparações. É menos conservador do que o HSD e
mais conservador do que o Newman-Kuels.
• Scheffe: é o mais conservador de todos! Ele tem baixo poder com
poucas comparações (menos do que k-1).
95

Felipe Pontes
ANOVA – Post hocs
• Gabriel: quando os valores dos N’s dos grupos for pouco diferente.
• GT2 de Hochberg: indicado quando os N’s forem muito diferentes.
Porém é preciso ter variâncias homogêneas.
• Games-Howel: para N’s diferentes e variâncias heterogêneas.
Existem muitas opções e muitos detalhes. Não se limitem a só essas
informações que estão muito resumidas!
96

Felipe Pontes
ANOVA – Post hocs
• Com os mesmos dados do exercício anterior, aplique os diversos post
hocs e compare seus resultados.
97

Felipe Pontes
ANOVA – Post hocs
• oneway var1 var2, bonferroni scheffe sidak
98
0.007 0.841
3 -3 -.6
0.029
2 -2.4
Col Mean 1 2
Row Mean-
(Sidak)
Comparison of var1 by var2
0.008 0.751
3 -3 -.6
0.031
2 -2.4
Col Mean 1 2
Row Mean-
(Scheffe)
0.007 1.000
3 -3 -.6
0.029
2 -2.4
Col Mean 1 2
Row Mean-
(Bonferroni)
0.007 0.841
3 -3 -.6
0.029
2 -2.4
Col Mean 1 2
Row Mean-
(Sidak)
0.008 0.751
3 -3 -.6
0.031
2 -2.4
Col Mean 1 2
Row Mean-
(Scheffe)
0.007 1.000
Row Mean-
(Scheffe)
0.007 1.000
3 -3 -.6
0.029
2 -2.4
Col Mean 1 2
Row Mean-
(Bonferroni)

Felipe Pontes
Pressupostos da ANOVA
• Sobre a heterocedasticidade na ANOVA:
– Pode-se usar alguma transformação dos dados;
– Brown-Forsythe (os “n” dos grupos são semelhantes);
– Welch (os “n” não são semelhantes); e
– Kruskal-Wallis (não paramétrico).
99
Ver: “Adjusting the One-way ANOVA for Heterogeneity of
Variance” http://www.psych.nyu.edu/cohen/eps12dr1.pdf

Felipe Pontes
ANOVA robusta para heterogeneidade
findit simanova
1) simanova var1 var2
• Esse comando fará várias simulações para tentar ajustar o problema da
heterogeneidade
2) fstar var1 var2
• Esse comando ajusta o teste F padrão, fazendo com que ele fique menos
sensível a heterogeneidade
findit wtest
3) wtest var1 var2
• ANOVA de Welch.
4) É possível também rodar regressões robustas, com a variável de interesse
sendo a dependente e as dummies dos grupos como sendo independentes.
100

Felipe Pontes
Teste t robusto
• No teste t também podemos usar a forma robusta para
heterogeneidade das variâncias.
• Comando: ttest VARIÁVEL, by(GRUPO) welch
101

Felipe Pontes
Pressupostos da ANOVA
• É preciso ter mais de dois grupos para se comparar.
• Os dados devem ser intervalares, porém os grupos são categorizados.
• Amostragem aleatória.
• Distribuição normal.
• Homogeneidade das variâncias.
102

Felipe Pontes
ANOVA - Aplicação
• Use os dados da planilha “AULA 3 - INFERÊNCIA - APLICAÇÕES
PRÁTICAS1” para analisar não mais par a par, mas os 3 grupos de uma só
vez. Rode também os modelos robustos para heterocedasticidade.
• Não precisa escrever a análise agora. Apenas rodar os testes.
103

Felipe Pontes
Testes não paramétricos
• Seguem o mesmo raciocínio dos paramétricos, porém sem os
pressupostos.
• Para cada paramétrico nós temos um não paramétrico correspondente.
104
Mensuração Amostra independente Amostra emparelhada
Intervalar (antende aos
pressupostos)
Teste t para amostras
independentes (mais de 2
grupos  ANOVA)
Teste t para amostras
emparelhadas
Ordinal e intervalar (não atende aos
pressupostos)
Mann-Whitney (mais de 2
grupos  Kruskal-Wallis)
Wilcoxon
Nominal (duas categorias - C) Chi² tabela 2x2 McNemar
Nominal (C > 2) Chi² tabela 2xC
Ex.:
Ordinal é qualitativo e impõe
uma ordem: satisfação,
escolaridade, nível de
governança etc.
Nominal é categórico, não
dá para dizer que uma
categoria é melhor que a
outra: nome, gênero etc.
Intervalar é quantitativo,
é possível calcular média,
moda, mediana etc:
lucro, preço etc.

Felipe Pontes
Testes não paramétricos
Refaça todos os testes que fizemos no Stata, porém agora com suas
versões não paramétricas. Compare os resultados.
• Kruskall-Wallis: kwallis VARIÁVEL, by(GRUPO)
(H0: igualdade entre os grupos)
• Wilcoxon-Mann-Whitney: ranksum VARIÁVEL, by(GRUPO)
• Outro teste de mediana: median VARIÁVEL, by(GRUPO) exact
(H0: igualdade entre os grupos)
• Teste dos postos de Wilcoxon (emparelhado): signrank var1=var2
• Teste dos sinais de Snedecor e Cochran (emparelhado): signtest
var1=var2
105

Felipe Pontes
Exercício
• Vamos às análises! Faça os testes dos pressupostos de normalidade
de homocedasticidade antes dos testes de média.
1. A variável VarCaixa, na planilha “AULA 3 - INFERÊNCIA - APLICAÇÕES
PRÁTICAS1” (aba “ANOVA e teste independente), representa a variação no
caixa-meta de 3 grupos de empresas brasileiras, enquanto que VarAbsCaixa
é a variação absoluta.
A. Analise, com base em um teste t para amostras independentes, se há
diferença na média das duas variáveis do grupo 1 e do grupo 3.
Comandos: acesse o post do blog.
106

Felipe Pontes
Exercício
> questão pede.
. * No comando acima eu retirei o grupo 3. Ou seja, analisei 1 com 2. Refaça retirando o grupo 2, que é o que a
.
Pr(T < t) = 0.0000 Pr(|T| > |t|) = 0.0000 Pr(T > t) = 1.0000
diff = mean(1) - mean(2) t = -4.6930
diff -.0479421 .0102157 -.0679804 -.0279038
combined 1525 .0028823 .0045209 .1765483 -.0059856 .0117503
2 1126 .0154259 .0053364 .1790685 .0049554 .0258963
1 399 -.0325162 .0082281 .1643563 -.0486922 -.0163402
. ttest VarCaixa if Trsgrupos!=3, by(Trsgrupos)
.
. * Por isso usaremos o comando "if", excluindo o grupo 3 da análise ("!=" quer dizer diferente).
107

Felipe Pontes
Exercício
Pr(T < t) = 0.0011 Pr(|T| > |t|) = 0.0022 Pr(T > t) = 0.9989
diff = mean(1) - mean(3) t = -3.0749
diff -.0274464 .0089259 -.0449576 -.0099351
combined 1266 -.01372 .0041607 .1480397 -.0218826 -.0055575
3 867 -.0050699 .0047255 .139143 -.0143447 .004205
1 399 -.0325162 .0082281 .1643563 -.0486922 -.0163402
. ttest VarCaixa if Trsgrupos!=2, by(Trsgrupos)
108

Felipe Pontes
Exercício
• Vamos às análises! Faça os testes dos pressupostos de normalidade
de homocedasticidade antes dos testes de média.
1. A variável VarCaixa, na planilha “AULA 3 - INFERÊNCIA - APLICAÇÕES
PRÁTICAS1” (aba “ANOVA e teste independente), representa a variação no
caixa-meta de 3 grupos de empresas brasileiras, enquanto que VarAbsCaixa
é a variação absoluta.A. Analise, com base em um teste t para amostras independentes, se há diferença na média das duas variáveis do grupo 1 e do grupo 3.
B. Analise, com base em uma ANOVA, se há diferença entre os 3 grupos.
Verifique com os post-hocs quais grupos são diferentes, se houver
diferença.
Comandos: acesse o post do blog.
A. Refaça a análise da letra A e da letra B usando um teste não paramétrico equivalente.
109

Felipe Pontes
Exercício
VarCaixa 2.4e+03 0.0000 0.0000 . .
joint
. sktest VarCaixa
110

Felipe Pontes
Exercício
Bartlett's test for equal variances: chi2(2) = 60.3434 Prob>chi2 = 0.000
Total 64.3033848 2391 .026893929
Within groups 63.5912947 2389 .026618374
Between groups .712090133 2 .356045066 13.38 0.0000
Source SS df MS F Prob > F
Analysis of Variance
Total -2.323e-15 .16399369 2392
3 -.00506987 .13914296 867
2 .01542589 .17906847 1126
1 -.03251622 .16435627 399
Três grupos Mean Std. Dev. Freq.
Summary of VarCaixa
. oneway VarCaixa Trsgrupos, tabulate
111

Felipe Pontes
Exercício
--------------------------------------------------------------------
WStat( 2, 1083.09) = 12.410, p= 0.0000
Dependent Variable is VarCaixa and Independent Variable is Trsgrupos
--------------------------------------------------------------------
. wtest VarCaixa Trsgrupos
112

Felipe Pontes
Exercício
0.016 0.016
3 .027446 -.020496
0.000
2 .047942
Col Mean 1 2
Row Mean-
(Bonferroni)
Comparison of VarCaixa by Três grupos
113
0.021 0.021
3 .027446 -.020496
0.000
2 .047942
Col Mean 1 2
Row Mean-
(Scheffe)
0.016 0.016
3 .027446 -.020496
0.000
2 .047942
Col Mean 1 2
Row Mean-
(Sidak)

Felipe Pontes
Recomendação de leitura
• GIGERENZER, G. Mindless statistics. The Journal of Socio-Economics, v.33, 2004.
• IOANNIDIS, J.P.A. Fit-for-purpose inferential methods: abandoning/changing P-
values versus abandoning/changing research. The American Statistician, 2016.
• POOLE, C. Low p-values or narrow confidence intervals: which are more durable?
Epidemiology, v.12, n.3, 2001.
• SCHERVISH, M.J. P-values: what they are and what they are not. The American
Statistician, v.50, n.3, 1996.
• WASSERSTEIN, R.L.; LAZAR, N.A. The ASA’s statement on p-values: context, process,
and purpose. The American Statistician, 2016.
ppgcc@ccsa.ufpb.br
114

Felipe Pontes
• O fim do p-value 1:
http://contabilidademq.blogspot.com.br/2015/11/o-fim-da-inferencia-
e-do-p-value.html
• O fim do p-value 2:
http://contabilidademq.blogspot.com.br/2016/03/o-fim-da-inferencia-
e-do-p-value-o.html
• Intervalo de confiança e a mídia:
http://fivethirtyeight.com/features/ignore-the-headlines-we-dont-
know-if-e-cigs-lead-kids-to-real-cigs/
• P-hacking: http://fivethirtyeight.com/features/science-isnt-
broken/#part1
ppgcc@ccsa.ufpb.br
115

Felipe Pontes
Tópico 5: Modelo Clássico de Regressão Linear
116

Felipe Pontes
Tópico 5: Modelo Clássico de Regressão Linear
seguinte link:
1. http://contabilidademq.blogspot.com.br/2017/04/introducao-ao-
modelo-classico-de.html
2. http://contabilidademq.blogspot.com.br/2017/04/regressao-multipla-
materiais-da-aula.html
3. http://contabilidademq.blogspot.com.br/2017/04/diagnosticos-do-
modelo-classico-de.html
117

Felipe Pontes
O que é um modelo de regressão?
• É um modelo que descreve e analisa a relação entre uma variável
dependente e uma ou mais variáveis independentes.
• Na regressão existe apenas uma variável dependente. Para mais de uma
dependente, você deverá utilizar a correlação canônica.
118

Felipe Pontes
Regressão x Correlação
• A correlação mede apenas o grau de associação linear entre duas
variáveis.
• A regressão vai além disso, é mais flexível e forte do que a correlação:
– Com a correlação não é preciso saber quem é Y ou quem é X, na regressão sim;
– Com a regressão nós podemos fazer algum tipo de previsão de Y com base em X,
com a correlação não; e
– Correlação não quer dizer “causação”. Nem regressão, estritamente (ver no
futuro “causa Granger”).
119

Felipe Pontes
Regressão Simples
• É o tipo de regressão que contém apenas uma variável independente:
y = a + bx + 𝜀
• A regressão simples nos apresenta resultados “semelhantes” ao da
correlação.
• Exemplo de regressão simples  CAPM padrão: 𝑅𝑒𝑡𝐸𝑥𝑐 𝑡 = 𝛼 +
𝛽𝑃𝑅𝑀𝑡 + 𝜀 𝑡
120

Felipe Pontes
Regressão Simples
121
e.g. se a assimetria for meu “y”, como mensurar? Essa mensuração foi correta?
Outros fatores
fora do modelo
podem
influenciar “y”

Felipe Pontes
Regressão Simples
• A forma mais comum de se minimizar a distância entre os pontos
observados e a reta estimada é pelo método dos mínimos quadrados
ordinários (OLS) – porém existem diversas outras maneiras (máxima
verossimilhança, MM etc.).
• O OLS minimiza a soma dos quadrados dos resíduos da regressão.
ppgcc@ccsa.ufpb.br
122
Por que minimizar a soma dos
quadrados dos resíduos e não
apenas a soma dos resíduos?
Rodar uma regressão qualquer no
programa para verificar na prática,
após responder
(predict uchapeu, residuals)

Felipe Pontes
Regressão Simples
• Resumo dos resíduos da estimação do beta:
123
Observação Resíduos
1 0.00241
2 0.001299
3 -0.0219
... ...
57 9.07E-05
58 -0.02472
59 0.001681
60 -0.0027
Soma ZERO

Felipe Pontes
Regressão Simples
• Antes de vermos a “matemática” de fato, vamos a um exemplo e outros
detalhes sobre a regressão simples (desconsideraremos aqui os
pressupostos, problemas relacionados a séries temporais etc), iniciando
com um exemplo básico.
ppgcc@ccsa.ufpb.br
124

Felipe Pontes
Regressão Simples (CAPM)
_cons -1.736649 4.113993 -0.42 0.701 -14.82921 11.35591
var2 1.641745 .2647783 6.20 0.008 .7991029 2.484388
var1 Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 418.959999 4 104.74 Root MSE = 3.1794
Adj R-squared = 0.9035
Residual 30.325994 3 10.1086647 R-squared = 0.9276
Model 388.634005 1 388.634005 Prob > F = 0.0085
F( 1, 3) = 38.45
Source SS df MS Number of obs = 5
. reg var1 var2
125

Felipe Pontes
Regressão Simples
1. Qual é o beta do seu fundo de investimento? Faça uma brevíssima
análise desse beta, o fundo é arriscado ou não, muito ou pouco?
2. O que o alfa quer dizer, estatisticamente e economicamente?
3. Baseado no resultado da regressão, se você, como gestor do fundo,
esperar que o Mercado (Rm) tenha um retorno 20% maior do que a Rf
(i.e. PRM), quanto esperar de retorno para o fundo? P.s.: os dados não
foram inputados na planilha sem o símbolo de %, então usem 20.
4. O que podemos perceber analisando os intervalos de confiança?
126

Felipe Pontes
• Os dados de X são observáveis, porém o Y depende também de u, então
precisamos pressupor algumas coisas sobre ele:
Pressupostos do MCRL
ppgcc@ccsa.ufpb.br
127
Isso apenas é garantido se houver um a no modelo
Testes para heterocedasticidade
Testes para autocorrelação
Pode ser gerado por erros de especificação
Veremos um pouco mais sobre isso em “paineis”
É importante para fazer inferências sobre a população em uma amostra finita

Felipe Pontes
Pressupostos (adicionais)
• Gujarati e Porter (2012, p.89) adicionam dois “pressupostos” além
daqueles apontados por Brooks (2014):
128

Felipe Pontes
Pressupostos
• Os pressupostos são importantes em qualquer teoria para podermos
fazer com que ela seja testável. Na econometria é do mesmo jeito.
Brooks, Gujarati e outros autores concordam sobre isso. Sempre temos
uma saída para problemas com elas.
• Para uma discussão teórica e prática, vejam os capítulos 10
(multicolinearidade), 11 (heterocedasticidade), 12 (autocorrelação) e 13
(erro de especificação) de Gujarati e Porter (2012). Sobre a normalidade
veja a seção 4.2 do mesmo livro.
ppgcc@ccsa.ufpb.br
129

Felipe Pontes
Propriedades do OLS
• Considerando que os Pressupostos 1-4 são aplicáveis, o estimador OLS
será BLUE (best linear unbiased estimator).
– “Best” - o estimador OLS tem a menor variância entre os demais
estimadores lineares não viesados (Gauss-Markov).
– “Linear” - é um estimador linear.
– “Unbiased” - Em média, o valor de e será igual ao seu valor real.
– “Estimator” - é um estimador do real valor de b.
ppgcc@ccsa.ufpb.br
130
$b
$b
$a $b

Felipe Pontes
Consistência do OLS
• Com o aumento da amostra até o infinito, o estimador convergirá ao seu
valor real.
• Para que isso seja verdade, é preciso apenas de dois pressupostos:
E(xtut) = 0 e E(ut) = 0.
ppgcc@ccsa.ufpb.br
131
  00ˆPrlim 

bb
T

Felipe Pontes
Não viesado
• Em média, o valor estimado dos parâmetros será igual ao seu valor real.
• Essa propriedade é mais forte que a anterior, da consistência, porque
vale tanto para amostras pequenas quanto para grandes. A consistência
é mais “assintótica”, para grandes amostras.
• Para que isso seja verdade, também é preciso que E(xtut) = 0.
ppgcc@ccsa.ufpb.br
132

Felipe Pontes
Eficiência
• Um estimador é eficiente se nenhum outro estimador tiver variância
melhor do que ele. Ou seja, a sua distribuição de probabilidade é pouco
dispersa em torno da média do valor real.
ppgcc@ccsa.ufpb.br
133

Felipe Pontes
Testes de hipóteses: t-ratio
• É o que nós frequentemente testamos na regressão para avaliar se os
coeficientes são significativos. Eles “têm” que ser diferentes de zero,
então precisamos rejeitar a H0 desse teste.
• Considerando T = 15 e um nível de significância de 5%, teste a
significância dos parâmetros abaixo:
ppgcc@ccsa.ufpb.br
134

Felipe Pontes
Testes de hipóteses: t-ratio
• Verifique se os coeficientes abaixo são significativos ao nível de 5%,
considerando que a amostra contém 134 observações.
135
_cons 6.40e-06 .0002662 0.02 0.9
retfutures 1.007291 .0058654 171.73 0.0
retspot Coef. Std. Err. t P>|

Felipe Pontes
Analisando a expectativa de vida
• sysuse uslifeexp
• sysdescribe uslifeexp
• Faça os exercícios abaixo, usando regressões simples:
1. Analise o efeito do tempo na expectativa de vida, em geral, das pessoas
dos EUA: reg le year
2. Compare o efeito do tempo na expectativa de vida dos homens e
depois das mulheres. Compare os dois.
3. Compare agora os homens brancos com os homens negros.
4. Compare agora as mulheres brancas com as negras.
5. Em geral, para quem o efeito do tempo tem sido mais benéfico?
Busque alguma justificativa.
ppgcc@ccsa.ufpb.br
136

Felipe Pontes
• KENNEDY, Peter E. Oh no! I got the wrong sign! What should I do? The
Journal of Economic Education, v. 36, n. 1, p. 77-92, 2005.
• MCHUGH, Mary L. Standard error: meaning and
interpretation. Biochemia Medica, v. 18, n. 1, p. 7-13, 2008.
• http://contabilidademq.blogspot.com.br/2016/04/oh-nao-meus-
coeficientes-da-regressao1111.html
ppgcc@ccsa.ufpb.br
137

Felipe Pontes
Por que usar regressões múltiplas?
• Na última aula vimos como trabalhar com regressões simples, que
contém apenas uma variável explicativa. Porém e se a teoria nos disser
que mais de uma variável explicativa ajuda a explicar a nossa variável
dependente?
• A solução é utilizar regressões múltiplas (que trazem também alguns
problemas adicionais).
• Exemplos de regressões múltiplas:
ppgcc@ccsa.ufpb.br
138
Modelo de Paulo (2007) para estimação
de accruals discricionários
Modelo de Basu (1995) para aferição do
conservadorismo condicional

Felipe Pontes
Teste de significância do modelo - F
• O teste t é usado para testar hipóteses com relação a 1 parâmetro do
modelo. O teste F é usado para testar a significância do modelo como um
todo (é um teste múltiplo).
• No âmbito da regressão, o teste F (padrão nos softwares) testa a H0 de
que todos os parâmetros do modelo (exceto a constante) são iguais a zero
– semelhante ao t, porém de forma múltipla.
• Para usar o teste F, precisamos estimar duas regressões:
A. Irrestrita (Unrestricted), que é gerada normalmente pelos seus dados
B. Restrita (Restricted), onde impomos a restrição que queremos testar nos
coeficientes (no caso da regressão, de que todos eles são iguais a zero).
ppgcc@ccsa.ufpb.br
139

Felipe Pontes
• Para realizar o teste F é necessário estimar as duas regressões, com e sem
restrições, e utilizar seus resíduos:
Em que: URSS = RSS da regressão IRRESTRITA
RRSS = RSS da regressão RESTRITA
m = número de restrições
T = número de observações
k = número de regressores na regressão irrestrita,
incluindo a constante (i.e. o número de betas
estimados).
ppgcc@ccsa.ufpb.br
140
test statistic
RRSS URSS
URSS
T k
m





Felipe Pontes
• A distribuição F tem dois parâmetros de graus de liberdade (m e T-k),
enquanto que a t tem apenas um (T-k).
• A distribuição F não é simétrica e tem apenas valores positivos. Para
rejeitar H0, então: F calculado > F tabelado.
ppgcc@ccsa.ufpb.br
141
Fonte: www.slideshare.net

Felipe Pontes
• Exemplos de número de restrições:
H0: hipóteses No. de restrições, m
b1 + b2 = 2 1
b2 = 1 e b3 = -1 2
b2 = 0, b3 = 0 e b4 = 0 3
• Hipóteses que não são lineares ou são multiplicativas, e.g., não
podem ser testadas com a F: H0: b2 b3 = 2 or H0: b2
2 = 1. Testes não
lineares clique aqui.
• Hipóteses que podem ser testadas com o t, podem ser testadas com o
F, mas não necessariamente o contrário poderá ser feito.
ppgcc@ccsa.ufpb.br
142

Felipe Pontes
• Para testar múltiplas hipóteses com o Stata, utilize a seguinte rotina
(lembrando que a sig do modelo já é dado quando roda a regressão):
test (Restrição 1) (Restrição 2) (Restrição 3) … (Restrição n)
Exemplo para o modelo regress retfutures retspot:
Manual do Stata sobre esses testes.
ppgcc@ccsa.ufpb.br
143
test (retspot=1) (retspot=_cons)
( 1) retspot = 1
( 2) retspot - _cons = 0
F( 2, 132) = 7.2e+06
Prob > F = 0.0000

Felipe Pontes
Analisando um APT
• Analise os resultados do próximo slide e responda às perguntas abaixo.
• Responda:
1. Quais variáveis foram significativas?
2. O modelo como um todo foi significativo?
3. Quando feito o teste conjunto com as variáveis que não foram significativas
individualmente, conclui-se que elas realmente não foram significativas?
4. Quando utilizado o método step-wise backwards com nível de significância de
20%, quais variáveis continuaram no modelo?
5. Quando realizado a 10%, quais continuaram?
ppgcc@ccsa.ufpb.br
144

Felipe Pontes
Analisando um APT
_cons -.1514086 .9047867 -0.17 0.867 -1.931576 1.628759
rterm 4.315813 2.515179 1.72 0.087 -.6327998 9.264426
dspread 5.366629 6.913915 0.78 0.438 -8.236496 18.96975
dmoney -.0110867 .0351754 -0.32 0.753 -.0802944 .0581209
dinflation 2.95991 2.166209 1.37 0.173 -1.302104 7.221925
dcredit -.0000405 .0000764 -0.53 0.596 -.0001909 .0001098
dprod -1.425779 1.324467 -1.08 0.283 -4.031668 1.180109
ersandp 1.360448 .1566147 8.69 0.000 1.052308 1.668587
ermsoft Coef. Std. Err. t P>|t| [95% Conf. Interval]
Total 63840.0903 323 197.647338 Root MSE = 12.659
Model 13202.4359 7 1886.06227 Prob > F = 0.0000
F( 7, 316) = 11.77
. regress ermsoft ersandp dprod dcredit dinflation dmoney dspread rterm
ppgcc@ccsa.ufpb.br
145

Felipe Pontes
Analisando um APT
Prob > F = 0.5131
F( 5, 316) = 0.85
( 5) dspread = 0
( 4) dmoney = 0
( 3) dinflation = 0
( 2) dcredit = 0
( 1) dprod = 0
. test (dprod=0) (dcredit=0) (dinflation=0) (dmoney=0) (dspread=0)
ppgcc@ccsa.ufpb.br
146

Felipe Pontes
Analisando um APT
Prob > F = 0.3182
F( 6, 316) = 1.18
( 6) rterm = 0
( 5) dspread = 0
( 4) dmoney = 0
( 3) dinflation = 0
( 2) dcredit = 0
( 1) dprod = 0
. test (dprod=0) (dcredit=0) (dinflation=0) (dmoney=0) (dspread=0) (rterm=0)
ppgcc@ccsa.ufpb.br
147

Felipe Pontes
Analisando um APT
_cons -.6873412 .7027164 -0.98 0.329 -2.069869 .6951865
rterm 4.369891 2.49711 1.75 0.081 -.5429353 9.282718
dinflation 2.876958 2.069933 1.39 0.166 -1.195438 6.949354
ersandp 1.338211 .1530557 8.74 0.000 1.037089 1.639334
Total 63840.0903 323 197.647338 Root MSE = 12.626
Model 12826.9936 3 4275.66453 Prob > F = 0.0000
F( 3, 320) = 26.82
p = 0.2256 >= 0.2000 removing dprod
p = 0.4807 >= 0.2000 removing dspread
p = 0.5944 >= 0.2000 removing dcredit
p = 0.7528 >= 0.2000 removing dmoney
begin with full model
. stepwise, pr(.20): regress ermsoft ersandp dprod dcredit dinflation dmoney dspread rterm
ppgcc@ccsa.ufpb.br
148

Felipe Pontes
Analisando um APT
_cons -.6858254 .7037347 -0.97 0.331 -2.07034 .6986893
rterm 4.18147 2.497043 1.67 0.095 -.7311675 9.094108
ersandp 1.33715 .1532757 8.72 0.000 1.035598 1.638702
Total 63840.0903 323 197.647338 Root MSE = 12.644
Model 12519.0392 2 6259.51961 Prob > F = 0.0000
F( 2, 321) = 39.15
p = 0.0950 < 0.1000 adding rterm
p = 0.0000 < 0.1000 adding ersandp
begin with empty model
. . stepwise, pe(.10): regress ermsoft ersandp dprod dcredit dinflation dmoney dspread rterm
ppgcc@ccsa.ufpb.br
149

Felipe Pontes
Adequação/Ajuste do modelo
• Quão bem meu modelo se ajusta aos dados utilizados? Para saber isso,
utilizamos uma medida chamada de R² (a mais usada – geralmente é
proxy eg para value relevance).
• Na regressão, nosso interesse é explicar a variabilidade de y em torno
de 𝑦, ou seja a soma total dos quadrados: 𝑇𝑆𝑆 = 𝑦𝑡 − 𝑦 2
• A TSS pode ser segregada em uma parte que nosso modelo explica (ESS)
e a parte que nosso modelo não explica (RSS): TSS = ESS + RSS
ppgcc@ccsa.ufpb.br
150

Felipe Pontes
• A medida de adequação do modelo, então, é dada por:
𝑅2 =
𝐸𝑆𝑆
𝑇𝑆𝑆
=
𝑇𝑆𝑆 − 𝑅𝑆𝑆
𝑇𝑆𝑆
= 1 −
𝑅𝑆𝑆
𝑇𝑆𝑆
• O R² deve estar entre 0 e 1:
RSS = TSS i.e. ESS = 0 R2 = ESS/TSS = 0
ESS = TSS i.e. RSS = 0  R2 = ESS/TSS = 1
ppgcc@ccsa.ufpb.br
151

Felipe Pontes
Total 63840.0903 323 197.647338 Root MSE = 12.644
Model 12519.0392 2 6259.51961 Prob > F = 0.0000
F( 2, 321) = 39.15
ppgcc@ccsa.ufpb.br
152
R² = 12519,0392/63840,0903

Felipe Pontes
R² = 0 R² = 1
ppgcc@ccsa.ufpb.br
153
ty
y
tx
ty
tx

Felipe Pontes
• Compare os R² dos modelos dos próximos slides.
• Que conclusão se pode tirar, com relação ao R² e a inclusão de novas
variáveis no modelo?
• O R² nunca cai quando incluímos novas variáveis no modelo.
• Em séries temporais é comum encontrarmos R² > 0,9. Não se anime
muito com isso!
ppgcc@ccsa.ufpb.br
154

Felipe Pontes
_cons -.2631496 .7801302 -0.34 0.736 -1.79791 1.271611
Total 64085.9159 324 197.796037 Root MSE = 14.064
Model 0 0 . Prob > F = .
F( 0, 324) = 0.00
. regress ermsoft
ppgcc@ccsa.ufpb.br
155

Felipe Pontes
_cons -.6137005 .705782 -0.87 0.385 -2.002211 .7748094
ersandp 1.325376 .1538871 8.61 0.000 1.022628 1.628124
Total 64085.9159 324 197.796037 Root MSE = 12.702
Model 11968.8168 1 11968.8168 Prob > F = 0.0000
F( 1, 323) = 74.18
. regress ermsoft ersandp
ppgcc@ccsa.ufpb.br
156

Felipe Pontes
_cons -.1514086 .9047867 -0.17 0.867 -1.931576 1.628759
rterm 4.315813 2.515179 1.72 0.087 -.6327998 9.264426
dspread 5.366629 6.913915 0.78 0.438 -8.236496 18.96975
dmoney -.0110867 .0351754 -0.32 0.753 -.0802944 .0581209
dinflation 2.95991 2.166209 1.37 0.173 -1.302104 7.221925
dcredit -.0000405 .0000764 -0.53 0.596 -.0001909 .0001098
dprod -1.425779 1.324467 -1.08 0.283 -4.031668 1.180109
ersandp 1.360448 .1566147 8.69 0.000 1.052308 1.668587
Total 63840.0903 323 197.647338 Root MSE = 12.659
Model 13202.4359 7 1886.06227 Prob > F = 0.0000
F( 7, 316) = 11.77
ppgcc@ccsa.ufpb.br
157

Felipe Pontes
• Para melhor adequar o R² à inclusão de novas variáveis, foi criado o R²
ajustado, ou R². Essa medida dá um “desconto” no R² pela inclusão de k
variáveis (incluindo a constante).
• Não faz sentido comparar modelos que tenham a mesma VD e VI
diferentes por meio do R², é preciso usar sua versão ajustada.
– regress ermsoft ersandp  R² = 18,68% e R² ajustado = 18,42%
– regress ermsoft ersandp dprod dcredit dinflation dmoney dspread rterm  R² =
20,68% e R² ajustado = 18,92%
– A inclusão das novas variáveis adiciona pouca explicação ao modelo.
ppgcc@ccsa.ufpb.br
158







 )1(
1
1 22
R
kT
T
R

Felipe Pontes
• 7 tipos de regressão que você deve conhecer
http://contabilidademq.blogspot.com.br/2015/10/7-tipos-de-regressao-
que-voce-deve.html
• E agora? O estimador não é BLUE?
http://contabilidademq.blogspot.com.br/2015/10/e-agora-o-estimador-
nao-e-blue.html
• Regression is cool!
• http://contabilidademq.blogspot.com.br/2014/01/videoclip-regression-
is-cool.html
ppgcc@ccsa.ufpb.br
159

Felipe Pontes
Introdução
• Relembrando os pressupostos do MCRL:
1. E(ut) = 0
2. Var(ut) = 2 < 
3. Cov (ui,uj) = 0
4. The X matrix is non-stochastic or fixed in repeated samples
5. ut  N(0,2)
luizfelipe@ccsa.ufpb.br
160

Felipe Pontes
E(ut) = 0
• A inclusão da constante garante esse pressuposto.
• Vejamos um exemplo com os seguintes procedimentos:
– quietly regress ermsoft ersandp
– predict res_com_cons, residuals
– quietly regress ermsoft ersandp, noconstant
– predict res_sem_cons, residuals
– mean res_com_cons res_sem_cons
– sum res_com_cons res_sem_cons
– **usem um ou outro, o sum é uma descritiva mais completa do que apenas a mean.
– test res_com_cons = 0
– test res_sem_cons = 0
161

Felipe Pontes
E(ut) = 0
res_sem_cons -.6116595 .7035219 -1.995707 .7723881
res_com_cons 1.23e-08 .7035192 -1.384042 1.384042
Mean Std. Err. [95% Conf. Interval]
Mean estimation Number of obs = 325
. mean res_com_cons res_sem_cons
162

Felipe Pontes
E(ut) = 0
( 1) res_sem_cons = 0
. test res_sem_cons = 0
.
Prob > F = 1.0000
F( 1, 324) = 0.00
( 1) res_com_cons = 0
. test res_com_cons = 0
163
Prob > F = 0.3853
F( 1, 324) = 0.76
( 1) res_sem_cons = 0
. test res_sem_cons = 0
.
Prob > F = 1.0000
F( 1, 324) = 0.00
( 1) res_com_cons = 0
. test res_com_cons = 0

Felipe Pontes
E(ut) = 0
• Se a teoria disser que o modelo não deve ter constante e,
eventualmente, a média dos resíduos gerados não for zero, você terá
alguns problemas.
1. O R² (ESS/TSS) poderá ser negativo. Ou seja: 𝑦 explica mais as variações em
y do que as variáveis explicativas do modelo; e (o pior)
2. Quando não há intercepto poderá haver viés na inclinação da reta estimada
(ver próximo slide).
164

Felipe Pontes
E(ut) = 0
165
Retirando a constante, a reta é
forçada a passar pela origem.

Felipe Pontes
E(ut) = 0
166
0
50
100150200
0 500 1000 1500
SANDP
Microsoft Linear prediction
0
50
100150200
0 500 1000 1500
SANDP
Microsoft Linear prediction

Felipe Pontes
Var(ut) = 2 < 
• O gráfico abaixo apresenta um exemplo de heterocedasticidade. A
variância dos resíduos é crescente.
167
Heterocedasticidade é um
problema comum para
contabilidade pois trabalhamos
com empresas de vários tipos,
tamanhos etc.

Felipe Pontes
Var(ut) = 2 < 
DETECÇÃO:
• O método gráfico não é o melhor para se detectar o problema. No
gráfico anterior a heterocedasticidade era uma função da variável x2,
porém e se fosse de x3? Concluiríamos algo errado e teríamos muito
trabalho. Para reduzir esse problema, existem diversos testes
formais.
• Os testes mais comuns são o de White e o de Breusch-Pagan
(também conhecido como Breusch-Pagan/Cook-Weisberg). Seguem
os comandos:
– White: estat imtest, white
– BP: estat hettest
168
Detecta qualquer forma linear de heterocedasticidade.
“estat hettest, idd” considera que os resíduos não são normais.
“estat hettest, fstat” considera que os resíduos não são normais e usa a
versão F do teste.
É um teste mais geral e não tem problema se a
heterocedasticidade for não linear.
Considera que os resíduos não são normalmente distribuídos.
Quando o modelo é muito grande (por gerar várias variáveis
“estranhas”) o BP pode ser mais poderoso que ele.

Felipe Pontes
Var(ut) = 2 < 
Consequências da heterocedasticidade no OLS
1. O estimador nos apresentará coeficientes não viesados e consistentes, uma
vez que a variância do erro não é utilizada para provar que o OLS é não
viesado e consistente.
2. O estimador não será BLUE – não terá a menor variância entre os
estimadores não viesados – a variância dos erros é usada para estimar a
variância dos coeficientes. Ou seja: o erro padrão poderá estar errado.
• Para mais detalhes algébricos sobre tratamento e consequências,
ver: Hill, Griffiths and Judge (1997, pp. 217–18).
169

Felipe Pontes
Var(ut) = 2 < 
• Dificilmente nós saberemos qual é o tipo da heterocedasticidade.
• Então usamos as seguintes “soluções”:
1. Controle do efeito escala: usando log das variáveis ou (usamos muito em
contabilidade) dividindo as variáveis contábeis pelo ativo total do ano anterior,
pelo número de ações, valor de Mercado etc.
2. Estimando o erro padrão robusto de White (no Eviews), no Stata é HC3 (Davidson
e Mackinnon, 1993). Assim, somos mais “contadores” (ou conservadores) na
rejeição de uma hipótese. Esse procedimento não altera os coeficientes, apenas os
erros padrão.
• Não há alteração nos resíduos, logo não há alteração no R². Essa solução não
resolve o problema de heterocedasticidade, ele estima uma matriz de variância e
covariância robusta.
• regress ermsoft ersandp, vce(hc3)
170

Felipe Pontes
Var(ut) = 2 < 
– Estime o modelo (planilha macro) regress ermsoft ersandp dprod dcredit dinflation
dmoney dspread rterm
• Execute os testes de heterocedasticidade:
– White: estat imtest, white
– BP: estat hettest
– Rode o mesmo modelo, porém robusto e compare os erros padrão: regress ermsoft
ersandp dprod dcredit dinflation dmoney dspread rterm, vce(hc3)
171

Felipe Pontes
Var(ut) = 2 < 
_cons -.1514086 .9047867 -0.17 0.867 -1.931576 1.628759
rterm 4.315813 2.515179 1.72 0.087 -.6327998 9.264426
dspread 5.366629 6.913915 0.78 0.438 -8.236496 18.96975
dmoney -.0110867 .0351754 -0.32 0.753 -.0802944 .0581209
dinflation 2.95991 2.166209 1.37 0.173 -1.302104 7.221925
dcredit -.0000405 .0000764 -0.53 0.596 -.0001909 .0001098
dprod -1.425779 1.324467 -1.08 0.283 -4.031668 1.180109
ersandp 1.360448 .1566147 8.69 0.000 1.052308 1.668587
Total 63840.0903 323 197.647338 Root MSE = 12.659
Model 13202.4359 7 1886.06227 Prob > F = 0.0000
F( 7, 316) = 11.77
172

Felipe Pontes
Var(ut) = 2 < 
Total 30.24 43 0.9289
Kurtosis 8.86 1 0.0029
Skewness 10.26 7 0.1742
Heteroskedasticity 11.12 35 1.0000
Source chi2 df p
Cameron & Trivedi's decomposition of IM-test
Prob > chi2 = 1.0000
chi2(35) = 11.12
against Ha: unrestricted heteroskedasticity
White's test for Ho: homoskedasticity
. estat imtest, white
173
Prob > chi2 = 0.7378
chi2(1) = 0.11
Variables: fitted values of ermsoft
Ho: Constant variance
Breusch-Pagan / Cook-Weisberg test for heteroskedasticity
. estat hettest

Felipe Pontes
Var(ut) = 2 < 
_cons -.1514086 .861929 -0.18 0.861 -1.847253 1.544436
rterm 4.315813 2.19344 1.97 0.050 .000222 8.631404
dspread 5.366629 4.975409 1.08 0.282 -4.422486 15.15574
dmoney -.0110867 .0285985 -0.39 0.699 -.0673543 .0451809
dinflation 2.95991 1.820692 1.63 0.105 -.6223007 6.542122
dcredit -.0000405 .0000699 -0.58 0.563 -.0001781 .0000971
dprod -1.425779 .9101229 -1.57 0.118 -3.216446 .3648869
ersandp 1.360448 .1485053 9.16 0.000 1.068263 1.652632
Robust HC3
Root MSE = 12.659
R-squared = 0.2068
Prob > F = 0.0000
F( 7, 316) = 14.20
Linear regression Number of obs = 324
. regress ermsoft ersandp dprod dcredit dinflation dmoney dspread rterm, vce(hc3)
174

Felipe Pontes
Cov (ui , uj) = 0
• Esse pressuposto diz que os erros (resíduos, uma vez que não
sabemos os erros da população) não são correlacionados ao longo
do tempo (ou cross-sectionalmente se esse for o caso dos seus
dados).
175

Felipe Pontes
Cov (ui , uj) = 0
DETECÇÃO
• Os testes mais comuns são:
1. Durbin-Watson: capta apenas autocorrelação de primeira ordem (por
padrão); e
2. Breusch-Godfrey: capta autocorrelação superior à primeira ordem (por
padrão).
176

Felipe Pontes
Cov (ui , uj) = 0
• O BG é um teste mais geral (ordens maiores do que 1) para
autocorrelação:
N(0, )
• As hipóteses são:
H0 : 1 = 0 e 2 = 0 e ... e r = 0
H1 : 1  0 ou 2  0 ou ... ou r  0
• Passos:
1. Estimar os resíduos da regressão original em OLS;
2. Estime uma nova regressão com os resíduos e as variáveis originais:
3. Calcule a estatística do teste: (T-r)R2  2(r)
4. Se a estatística calculada for maior do que a tabelada, rejeita-se a H0.
177
u u u u u v vt t t t r t r t t           1 1 2 2 3 3 ... , 2
v
Quantos lags devo usar? Não existe uma resposta exata para isso. Normalmente se usa a
frequência dos dados. Se for mensal, por exemplo, usar 12.

Felipe Pontes
Cov (ui , uj) = 0
• Não faremos o BG de forma braçal.
quietly regress ermsoft ersandp
estat bgodfrey, lags(1)
** Seguindo a regra da frequência, 12 seria a quantidade correta de lags, uma vez que
os dados são mensais.
** Caso tenhamos uma amostra pequena, deve-se usar a correção small. Não é o
nosso caso agora para esses dados
estat bgodfrey, lags(12) small
estat bgodfrey, lags(30) small
178

Felipe Pontes
Cov (ui , uj) = 0
179
1 2.263 1 0.1325
lags(p) chi2 df Prob > chi2
Breusch-Godfrey LM test for autocorrelation
12 18.939 12 0.0900
H0: no serial correlation
30 45.253 30 0.0366

Felipe Pontes
Cov (ui , uj) = 0
Consequências da autocorrelação no OLS:
1. São semelhantes à heterocedasticidade: estimador consistente e não
viesado.
2. O estimador não é eficiente. Não será BLUE nem em amostras grandes;
3. No caso de autocorrelação positiva, os erros padrão serão viesados para
baixo, com relação aos erros padrão reais, implicando aumento da
probabilidade de ocorrência do Erro do Tipo I e, além disso, aumentará a
probabilidade de o R² estar inflado (porque a variância estará enviesada
para baixo).
180

Felipe Pontes
Cov (ui , uj) = 0
Como lidar com a autocorrelação?
1. Usar um modelo GLS (eg Cochrane-Orcutt), porém é preciso saber o tipo de
autocorrelação antes de estimar. Como não sabemos a priori, uma proxy para
isso é o  da fórmula do DW, porém é apenas uma aproximação que pode ser
muito errada em amostras pequenas.
2. Semelhante à correção de White, temos a correção de Newey-West, que nos dá
erros padrão robustos para heterocedasticidade e autocorrelação.
181
O comando para rodar o NW é: newey VD VI1 VI2..., lag(qts forem necessários). Esse
comando não fornece R² e outras medidas, pois ele só afeta os erros-padrão. Então
podemos usar o mesmo R² do OLS comum.
É preciso dizer ao Stata que os dados são séries temporais (tsset ....). Cuidado, pois não
pode haver buracos na série. Se houver buracos, usar a opção “force” após o lag().
Para painel, é preciso instalar o newey2: ssc install newey2

Felipe Pontes
Cov (ui , uj) = 0
_cons -.6137005 .705782 -0.87 0.385 -2.002211 .7748094
ersandp 1.325376 .1538871 8.61 0.000 1.022628 1.628124
182
_cons -.6137005 .49236 -1.25 0.214 -1.582338 .3549368
ersandp 1.325376 .146263 9.06 0.000 1.037628 1.613124
Newey-West
Erro padrão normal
Erro padrão de Newey-West
OS COEFICIENTES SE ALTERAM?

Felipe Pontes
Cov (ui , uj) = 0
• Faça o teste de autocorrelação do seguinte modelo: reg ermsoft
ersandp dprod dcredit dinflation dmoney dspread rterm
• Qual foi a sua conclusão pelo teste?
• Como solucionar o problema?
• Rode agora o seguinte modelo e compare com o anterior: newey
ermsoft ersandp dprod dcredit dinflation dmoney dspread rterm,
lag(12)
183

Felipe Pontes
Cov (ui , uj) = 0
_cons -.1514086 .9047867 -0.17 0.867 -1.931576 1.628759
rterm 4.315813 2.515179 1.72 0.087 -.6327998 9.264426
dspread 5.366629 6.913915 0.78 0.438 -8.236496 18.96975
dmoney -.0110867 .0351754 -0.32 0.753 -.0802944 .0581209
dinflation 2.95991 2.166209 1.37 0.173 -1.302104 7.221925
dcredit -.0000405 .0000764 -0.53 0.596 -.0001909 .0001098
dprod -1.425779 1.324467 -1.08 0.283 -4.031668 1.180109
ersandp 1.360448 .1566147 8.69 0.000 1.052308 1.668587
184
_cons -.1514086 .5684978 -0.27 0.790 -1.269928 .9671106
rterm 4.315813 2.437194 1.77 0.078 -.4793648 9.110991
dspread 5.366629 4.826354 1.11 0.267 -4.129221 14.86248
dmoney -.0110867 .0284062 -0.39 0.697 -.066976 .0448025
dinflation 2.95991 2.045547 1.45 0.149 -1.064702 6.984523
dcredit -.0000405 .0000448 -0.90 0.366 -.0001287 .0000476
dprod -1.425779 .6935964 -2.06 0.041 -2.79043 -.0611289
ersandp 1.360448 .1458854 9.33 0.000 1.073418 1.647477
Newey-West

Felipe Pontes
xt não é estocástico
• A priori, as variáveis independentes não devem ser estocásticas.
• Quando é um problema incluir variáveis estocásticas?
– Quando X e u não forem independentes (não forem ortogonais). Ou seja: não
pode haver correlação entre nenhuma variável independente e o termo de
erro.
• Qual é o problema?
– O estimador OLS será inconsistente e enviesado.
185

Felipe Pontes
ut ∼ N(0, σ²)
• Para analisar em conjunto a hipótese de zero assimetria e zero excesso
de curtose, Bera e Jarque (1981) (mas chamamos de Jarque-Bera)
desenvolveram um teste:
1. Calculam-se os índices de assimetria e curtose (dos resíduos):
2. Calcula-se a estatística do teste (T é o tamanho da amostra):
186
 
b
E u
1
3
2 3 2

[ ]
/
  
b
E u
2
4
2 2

[ ]

   2~
24
3
6
2
2
2
2
1





 

bb
TW

Felipe Pontes
ut ∼ N(0, σ²)
• Para testar no Stata é preciso primeiro salvar os resíduos após rodar a
regressão.
reg ermsoft ersandp
** Instalem o Jarque-Bera, pois ele não vem instalado
ssc install jb6
** Para saber mais sobre o teste use o comando "help"
help jb6
** Salve os resíduos em uma variável que chamaremos de "res"
predict residuos, residuals
** Avalie primeiro o histograma com a linha da normalidade
histogram residuos, normal
** Realize o teste. Faça também o Shapiro-Wilk e o SK
jb6 residuos
swilk residuos
sktest residuos
187

Felipe Pontes
ut ∼ N(0, σ²)
• Provavelmente os resíduos negativos em mais de 20 (retorno negativo
de 20%, já que estamos trabalhando com isso) causaram a não
normalidade.
• Os retornos também ficaram muito concentrados em torno de zero.
188
0
.02.04.06
Density
-60 -40 -20 0 20 40
Residuals

Felipe Pontes
ut ∼ N(0, σ²)
residuos 325 0.0000 0.0000 . 0.0000
joint
. sktest residuos
.
residuos 325 0.77326 51.863 9.304 0.00000
Variable Obs W V z Prob>z
Shapiro-Wilk W test for normal data
. swilk residuos
.
Jarque-Bera test for Ho: normality: (residuos)
Jarque-Bera normality test: 1705 Chi(2) 0
. jb6 residuos
189

Felipe Pontes
ut ∼ N(0, σ²)
• Vamos analisar mais “profundamente” os resíduos, especificamente a
assimetria e a curtose:
summarize residuos, detail
190
99% 22.93196 30.43601 Kurtosis 13.11432
95% 17.05971 25.93606 Skewness -2.428564
90% 11.0482 25.29979 Variance 160.8552
75% 5.840436 22.93196
Largest Std. Dev. 12.68287
50% .9756916 Mean 1.23e-08
25% -3.792569 -60.2392 Sum of Wgt. 325
10% -9.76227 -60.49094 Obs 325
5% -13.93199 -64.82001
1% -60.2392 -66.5228
Percentiles Smallest
Residuals

Curso introdução aos métodos quantitativos aplicados à contabilidade

Curso introdução aos métodos quantitativos aplicados à contabilidade

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Curso introdução aos métodos quantitativos aplicados à contabilidade

Semelhante a Curso introdução aos métodos quantitativos aplicados à contabilidade (20)

Mais de Felipe Pontes

Mais de Felipe Pontes (20)

Curso introdução aos métodos quantitativos aplicados à contabilidade