SlideShare uma empresa Scribd logo
1 de 14
Baixar para ler offline
P-Hacking nas Ciˆencias Sociais Brasileiras
Manoel Galdino 1 Rafael N. Magalh˜aes 2
1Transparˆencia Brasil
2DCP-USP
25 de Outubro de 2016
Outline
Introdu¸c˜ao e objetivo
Dados
Resultados
Resultados
Discuss˜ao
Motiva¸c˜ao
Existe evidˆencia na Medicina e na Ciˆencia Pol´ıtica (Ioannidis
2005, Fang et al. 2014) de que os estudos s˜ao viesados para
resultados significantes
Incentivo: pesquisadores n˜ao reportam todos os passos de
suas an´alises, particularmente aqueles que produzem
resultados nulos
HARKing: “Hypothesizing After the Results are Known”
(Kerr, 1998)
P-Valor
P-valor
Probabilidade de observar uma estat´ıstica t˜ao ou mais extrema do
que a observada condicional `a H(0) ser verdadeira
O que aconteceria com minha estat´ıstica se eu coletasse uma
nova amostra repetidas vezes?
O que acontece se, a cada amostra que eu coletar, eu calcular
uma estat´ıstica diferente?
Para cada amostra de dados X, eu calculo tj(X). Agora, minha
distribui¸c˜ao da estat´ıstica n˜ao depende apenas da distribui¸c˜ao dos
dados sob o modelo nulo, mas tamb´em dos pr´oprios dados gerados.
P-Valor
P-Hacking
Calcular j estat´ısticas, e escolher a estat´ıstica m´axima.
Formalmente, T(x) = max(Tj(x)).
Garden of Forking Paths
Para um dado x, calcular T(x). Mas se x fosse x , o pesquisador
calcularia T (x) > T(x), que ´e equivalente a p-hacking (mas com
j potencialmente menor).
P-Hacking
While collecting and analyzing data, researchers have many
decisions to make, including whether to collect more data, which
outliers to exclude, which measure to analyze, which covariates to
use, etc. If these decisions are not made in advance but rather as
the data are being analyzed, then researchers may make them in
ways that self-servingly increase their odds of publishing. Thus,
rather than file-drawering entire studies, researchers may file-drawer
merely the subsets of analysesthat produce non-significant results.
We refer to such behavior as p-hacking. Simonsohn et al, 2014
Existe p-hacking nas ciˆencias sociais brasileiras?
A proposta da pesquisa ´e analisar todos os artigos publicados
nas revistas Opini˜ao P´ublica, Dados, e Brazilian Political
Science Review entre 2010 e 2016
Neste momento, coleta dos dados n˜ao est´a completa: 63
artigos, 7 com inferˆencia estat´ıstica, 258 coeficientes, 129
observa¸c˜oes com p-valor maior que 0.
Desses artigos, coletamos todas as estat´ısticas calculadas (t,
qui-quadrado, z etc.) ou p-valor, o que estivesse dispon´ıvel.
Se houver evidˆencia de p-hacking ou Garden of forking paths,
iremos observar “saltos” na distribui¸c˜ao do p-valor ao redor de
10%, 5% e 1%.
Distribui¸c˜ao dos p-valores encontrados
Distribui¸c˜ao dos p-valores encontrados
Nossa an´alise sofre do mesmo problema?
A discricionaridade na escolha de estat´ısticas a apresentar
tamb´em poderia se aplicar a este trabalho.
Solu¸c˜oes sugeridas: pr´e-registro, modelos hier´arquicos
bayesianos ou modelos com regulariza¸c˜ao
Pode ajudar: estudar efeitos com muita magnitude e dados
com boa raz˜ao sinal/ru´ıdo
Pr´e-Registro
Pr´os:
Atenua o vi´es de publica¸c˜ao
Atenua o p-hacking
Pode trazer benef´ıcios colaterais, como a maior abertura para
coment´arios antes da implementa¸c˜ao da pesquisa
Contras:
Desincentiva an´alise explorat´oria
Inflexibilidade
Alto custo de oportunidade em compara¸c˜ao com a pr´atica de
replica¸c˜oes
Modelos hier´arquicos e regulariza¸c˜ao
Modelos hier´arquicos permitem estimar com mais precis˜ao o
efeito de vari´aveis agrupadas e atenuam o problema das
m´ultiplas compara¸c˜oes
Ao estimar um modelo completo, com todas as intera¸c˜oes
etc., o modelo hier´arquico ir´a “automaticamente” ajustar para
o ru´ıdo introduzido pelas combina¸c˜oes de vari´aveis
Regulariza¸c˜ao: ao penalizar coeficientes de vari´aveis com
muito ru´ıdo e pouco sinal, atenua o efeito do p-hacking de
viesar os coeficientes para se tornarem significantes. Exemplo:
Lasso, Ridge regression
Discuss˜ao e pr´oximos passos
A pesquisa prossegue com a coleta dos dados
A coleta inicial revelou ausˆencia de padroniza¸c˜ao na
apresenta¸c˜ao dos testes estat´ısticos
Teste confirmat´orio: Caliper Test (Gerber e Malhotra, 2008)
MUITO OBRIGADO!

Mais conteúdo relacionado

Semelhante a P-hacking nas CS brasileiras

Etapas do desenvolvimento da busca: principais tipos de estudo
Etapas do desenvolvimento da busca: principais tipos de estudo Etapas do desenvolvimento da busca: principais tipos de estudo
Etapas do desenvolvimento da busca: principais tipos de estudo Rosemeire Rocha Pinto
 
Unidade i conceitos fundamentais de estatística
Unidade i   conceitos fundamentais de estatísticaUnidade i   conceitos fundamentais de estatística
Unidade i conceitos fundamentais de estatísticaCristiano Martinez
 
ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE EVASÃO E AS RESPOSTAS DO QUESTIONÁRIO PA...
ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE EVASÃO E AS RESPOSTAS DO QUESTIONÁRIO PA...ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE EVASÃO E AS RESPOSTAS DO QUESTIONÁRIO PA...
ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE EVASÃO E AS RESPOSTAS DO QUESTIONÁRIO PA...CRISLANIO MACEDO
 
Uso de ferramentas estatísticas para uma análise do fim do momento da pandemia
Uso de ferramentas estatísticas para uma análise do fim do momento da pandemiaUso de ferramentas estatísticas para uma análise do fim do momento da pandemia
Uso de ferramentas estatísticas para uma análise do fim do momento da pandemiaAgnaldo Antonio dos Santos
 
A nossa estatística (2)
A nossa estatística (2)A nossa estatística (2)
A nossa estatística (2)Sasuke Sakura
 
Geometria Descritiva
 Geometria Descritiva Geometria Descritiva
Geometria Descritivadjuylyodm
 
Bioestat1 conceitos iniciais
Bioestat1 conceitos iniciaisBioestat1 conceitos iniciais
Bioestat1 conceitos iniciaisPaulo Brasil
 
Anatomia e Fisiologia da Pesquisa Científica
Anatomia e Fisiologia da Pesquisa CientíficaAnatomia e Fisiologia da Pesquisa Científica
Anatomia e Fisiologia da Pesquisa Científicatathitrocoli
 
Probabilidade e Estatística - Aula 01
Probabilidade e Estatística - Aula 01Probabilidade e Estatística - Aula 01
Probabilidade e Estatística - Aula 01Augusto Junior
 

Semelhante a P-hacking nas CS brasileiras (20)

Etapas do desenvolvimento da busca: principais tipos de estudo
Etapas do desenvolvimento da busca: principais tipos de estudo Etapas do desenvolvimento da busca: principais tipos de estudo
Etapas do desenvolvimento da busca: principais tipos de estudo
 
Fundamentos da estatística
Fundamentos da estatísticaFundamentos da estatística
Fundamentos da estatística
 
Unidade i conceitos fundamentais de estatística
Unidade i   conceitos fundamentais de estatísticaUnidade i   conceitos fundamentais de estatística
Unidade i conceitos fundamentais de estatística
 
estatistica aula 1.pdf
estatistica aula 1.pdfestatistica aula 1.pdf
estatistica aula 1.pdf
 
Estatística para Ciências Sociais
Estatística para Ciências SociaisEstatística para Ciências Sociais
Estatística para Ciências Sociais
 
Aula inferencia
Aula inferenciaAula inferencia
Aula inferencia
 
ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE EVASÃO E AS RESPOSTAS DO QUESTIONÁRIO PA...
ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE EVASÃO E AS RESPOSTAS DO QUESTIONÁRIO PA...ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE EVASÃO E AS RESPOSTAS DO QUESTIONÁRIO PA...
ANÁLISE ESTATÍSTICA DA RELAÇÃO ENTRE EVASÃO E AS RESPOSTAS DO QUESTIONÁRIO PA...
 
Uso de ferramentas estatísticas para uma análise do fim do momento da pandemia
Uso de ferramentas estatísticas para uma análise do fim do momento da pandemiaUso de ferramentas estatísticas para uma análise do fim do momento da pandemia
Uso de ferramentas estatísticas para uma análise do fim do momento da pandemia
 
Apostila curso estatistica_goes
Apostila curso estatistica_goesApostila curso estatistica_goes
Apostila curso estatistica_goes
 
A nossa estatística (2)
A nossa estatística (2)A nossa estatística (2)
A nossa estatística (2)
 
Geometria Descritiva
 Geometria Descritiva Geometria Descritiva
Geometria Descritiva
 
Amostragem - estatistica
Amostragem - estatisticaAmostragem - estatistica
Amostragem - estatistica
 
Epidemiologia descritiva
Epidemiologia descritivaEpidemiologia descritiva
Epidemiologia descritiva
 
Bioestat1 conceitos iniciais
Bioestat1 conceitos iniciaisBioestat1 conceitos iniciais
Bioestat1 conceitos iniciais
 
Estatística
EstatísticaEstatística
Estatística
 
Aula19
Aula19Aula19
Aula19
 
Anatomia e Fisiologia da Pesquisa Científica
Anatomia e Fisiologia da Pesquisa CientíficaAnatomia e Fisiologia da Pesquisa Científica
Anatomia e Fisiologia da Pesquisa Científica
 
Aula 1
Aula 1Aula 1
Aula 1
 
Aula 1
Aula 1Aula 1
Aula 1
 
Probabilidade e Estatística - Aula 01
Probabilidade e Estatística - Aula 01Probabilidade e Estatística - Aula 01
Probabilidade e Estatística - Aula 01
 

P-hacking nas CS brasileiras

  • 1. P-Hacking nas Ciˆencias Sociais Brasileiras Manoel Galdino 1 Rafael N. Magalh˜aes 2 1Transparˆencia Brasil 2DCP-USP 25 de Outubro de 2016
  • 3. Motiva¸c˜ao Existe evidˆencia na Medicina e na Ciˆencia Pol´ıtica (Ioannidis 2005, Fang et al. 2014) de que os estudos s˜ao viesados para resultados significantes Incentivo: pesquisadores n˜ao reportam todos os passos de suas an´alises, particularmente aqueles que produzem resultados nulos HARKing: “Hypothesizing After the Results are Known” (Kerr, 1998)
  • 4. P-Valor P-valor Probabilidade de observar uma estat´ıstica t˜ao ou mais extrema do que a observada condicional `a H(0) ser verdadeira O que aconteceria com minha estat´ıstica se eu coletasse uma nova amostra repetidas vezes? O que acontece se, a cada amostra que eu coletar, eu calcular uma estat´ıstica diferente? Para cada amostra de dados X, eu calculo tj(X). Agora, minha distribui¸c˜ao da estat´ıstica n˜ao depende apenas da distribui¸c˜ao dos dados sob o modelo nulo, mas tamb´em dos pr´oprios dados gerados.
  • 5. P-Valor P-Hacking Calcular j estat´ısticas, e escolher a estat´ıstica m´axima. Formalmente, T(x) = max(Tj(x)). Garden of Forking Paths Para um dado x, calcular T(x). Mas se x fosse x , o pesquisador calcularia T (x) > T(x), que ´e equivalente a p-hacking (mas com j potencialmente menor).
  • 6. P-Hacking While collecting and analyzing data, researchers have many decisions to make, including whether to collect more data, which outliers to exclude, which measure to analyze, which covariates to use, etc. If these decisions are not made in advance but rather as the data are being analyzed, then researchers may make them in ways that self-servingly increase their odds of publishing. Thus, rather than file-drawering entire studies, researchers may file-drawer merely the subsets of analysesthat produce non-significant results. We refer to such behavior as p-hacking. Simonsohn et al, 2014
  • 7. Existe p-hacking nas ciˆencias sociais brasileiras? A proposta da pesquisa ´e analisar todos os artigos publicados nas revistas Opini˜ao P´ublica, Dados, e Brazilian Political Science Review entre 2010 e 2016 Neste momento, coleta dos dados n˜ao est´a completa: 63 artigos, 7 com inferˆencia estat´ıstica, 258 coeficientes, 129 observa¸c˜oes com p-valor maior que 0. Desses artigos, coletamos todas as estat´ısticas calculadas (t, qui-quadrado, z etc.) ou p-valor, o que estivesse dispon´ıvel. Se houver evidˆencia de p-hacking ou Garden of forking paths, iremos observar “saltos” na distribui¸c˜ao do p-valor ao redor de 10%, 5% e 1%.
  • 10. Nossa an´alise sofre do mesmo problema? A discricionaridade na escolha de estat´ısticas a apresentar tamb´em poderia se aplicar a este trabalho. Solu¸c˜oes sugeridas: pr´e-registro, modelos hier´arquicos bayesianos ou modelos com regulariza¸c˜ao Pode ajudar: estudar efeitos com muita magnitude e dados com boa raz˜ao sinal/ru´ıdo
  • 11. Pr´e-Registro Pr´os: Atenua o vi´es de publica¸c˜ao Atenua o p-hacking Pode trazer benef´ıcios colaterais, como a maior abertura para coment´arios antes da implementa¸c˜ao da pesquisa Contras: Desincentiva an´alise explorat´oria Inflexibilidade Alto custo de oportunidade em compara¸c˜ao com a pr´atica de replica¸c˜oes
  • 12. Modelos hier´arquicos e regulariza¸c˜ao Modelos hier´arquicos permitem estimar com mais precis˜ao o efeito de vari´aveis agrupadas e atenuam o problema das m´ultiplas compara¸c˜oes Ao estimar um modelo completo, com todas as intera¸c˜oes etc., o modelo hier´arquico ir´a “automaticamente” ajustar para o ru´ıdo introduzido pelas combina¸c˜oes de vari´aveis Regulariza¸c˜ao: ao penalizar coeficientes de vari´aveis com muito ru´ıdo e pouco sinal, atenua o efeito do p-hacking de viesar os coeficientes para se tornarem significantes. Exemplo: Lasso, Ridge regression
  • 13. Discuss˜ao e pr´oximos passos A pesquisa prossegue com a coleta dos dados A coleta inicial revelou ausˆencia de padroniza¸c˜ao na apresenta¸c˜ao dos testes estat´ısticos Teste confirmat´orio: Caliper Test (Gerber e Malhotra, 2008)