Este documento discute a prática do P-hacking nas ciências sociais brasileiras. Os autores analisaram 63 artigos de três revistas entre 2010-2016 e coletaram 258 coeficientes e 129 p-valores. A distribuição inicial dos p-valores sugere a possibilidade de P-hacking. As soluções propostas incluem pré-registro, modelos hierárquicos bayesianos e regularização para atenuar vieses. A pesquisa continuará coletando dados para testes adicionais.
3. Motiva¸c˜ao
Existe evidˆencia na Medicina e na Ciˆencia Pol´ıtica (Ioannidis
2005, Fang et al. 2014) de que os estudos s˜ao viesados para
resultados significantes
Incentivo: pesquisadores n˜ao reportam todos os passos de
suas an´alises, particularmente aqueles que produzem
resultados nulos
HARKing: “Hypothesizing After the Results are Known”
(Kerr, 1998)
4. P-Valor
P-valor
Probabilidade de observar uma estat´ıstica t˜ao ou mais extrema do
que a observada condicional `a H(0) ser verdadeira
O que aconteceria com minha estat´ıstica se eu coletasse uma
nova amostra repetidas vezes?
O que acontece se, a cada amostra que eu coletar, eu calcular
uma estat´ıstica diferente?
Para cada amostra de dados X, eu calculo tj(X). Agora, minha
distribui¸c˜ao da estat´ıstica n˜ao depende apenas da distribui¸c˜ao dos
dados sob o modelo nulo, mas tamb´em dos pr´oprios dados gerados.
5. P-Valor
P-Hacking
Calcular j estat´ısticas, e escolher a estat´ıstica m´axima.
Formalmente, T(x) = max(Tj(x)).
Garden of Forking Paths
Para um dado x, calcular T(x). Mas se x fosse x , o pesquisador
calcularia T (x) > T(x), que ´e equivalente a p-hacking (mas com
j potencialmente menor).
6. P-Hacking
While collecting and analyzing data, researchers have many
decisions to make, including whether to collect more data, which
outliers to exclude, which measure to analyze, which covariates to
use, etc. If these decisions are not made in advance but rather as
the data are being analyzed, then researchers may make them in
ways that self-servingly increase their odds of publishing. Thus,
rather than file-drawering entire studies, researchers may file-drawer
merely the subsets of analysesthat produce non-significant results.
We refer to such behavior as p-hacking. Simonsohn et al, 2014
7. Existe p-hacking nas ciˆencias sociais brasileiras?
A proposta da pesquisa ´e analisar todos os artigos publicados
nas revistas Opini˜ao P´ublica, Dados, e Brazilian Political
Science Review entre 2010 e 2016
Neste momento, coleta dos dados n˜ao est´a completa: 63
artigos, 7 com inferˆencia estat´ıstica, 258 coeficientes, 129
observa¸c˜oes com p-valor maior que 0.
Desses artigos, coletamos todas as estat´ısticas calculadas (t,
qui-quadrado, z etc.) ou p-valor, o que estivesse dispon´ıvel.
Se houver evidˆencia de p-hacking ou Garden of forking paths,
iremos observar “saltos” na distribui¸c˜ao do p-valor ao redor de
10%, 5% e 1%.
10. Nossa an´alise sofre do mesmo problema?
A discricionaridade na escolha de estat´ısticas a apresentar
tamb´em poderia se aplicar a este trabalho.
Solu¸c˜oes sugeridas: pr´e-registro, modelos hier´arquicos
bayesianos ou modelos com regulariza¸c˜ao
Pode ajudar: estudar efeitos com muita magnitude e dados
com boa raz˜ao sinal/ru´ıdo
11. Pr´e-Registro
Pr´os:
Atenua o vi´es de publica¸c˜ao
Atenua o p-hacking
Pode trazer benef´ıcios colaterais, como a maior abertura para
coment´arios antes da implementa¸c˜ao da pesquisa
Contras:
Desincentiva an´alise explorat´oria
Inflexibilidade
Alto custo de oportunidade em compara¸c˜ao com a pr´atica de
replica¸c˜oes
12. Modelos hier´arquicos e regulariza¸c˜ao
Modelos hier´arquicos permitem estimar com mais precis˜ao o
efeito de vari´aveis agrupadas e atenuam o problema das
m´ultiplas compara¸c˜oes
Ao estimar um modelo completo, com todas as intera¸c˜oes
etc., o modelo hier´arquico ir´a “automaticamente” ajustar para
o ru´ıdo introduzido pelas combina¸c˜oes de vari´aveis
Regulariza¸c˜ao: ao penalizar coeficientes de vari´aveis com
muito ru´ıdo e pouco sinal, atenua o efeito do p-hacking de
viesar os coeficientes para se tornarem significantes. Exemplo:
Lasso, Ridge regression
13. Discuss˜ao e pr´oximos passos
A pesquisa prossegue com a coleta dos dados
A coleta inicial revelou ausˆencia de padroniza¸c˜ao na
apresenta¸c˜ao dos testes estat´ısticos
Teste confirmat´orio: Caliper Test (Gerber e Malhotra, 2008)