Uma razão pela qual alguns estudos científicos podem estar errados

Há um crise de replicabilidade na ciência - "falsos positivos" não identificados são permeando até nossos principais periódicos de pesquisa.

Um falso positivo é uma afirmação de que existe um efeito quando na verdade não existe. Ninguém sabe que proporção de artigos publicados contém resultados incorretos ou exagerados, mas há sinais de que a proporção não é pequena.

O epidemiologista John Ioannidis deu a melhor explicação para esse fenômeno em um famoso artigo no 2005, provocativamente intitulado “Por que a maioria dos resultados de pesquisa publicados é falsa" Uma das razões que Ioannidis deu para tantos resultados falsos veio a ser chamada “p hacking ”, que surge da pressão que os pesquisadores sentem para alcançar significância estatística.

O que é significância estatística?

Para tirar conclusões dos dados, os pesquisadores geralmente confiam teste de significância. Em termos simples, isso significa calcular o “p valor ”, que é a probabilidade de resultados como o nosso se realmente não há efeito. Se o p valor é suficientemente pequeno, o resultado é declarado como estatisticamente significativo.

Tradicionalmente, p valor menor que .05 é o critério de significância. Se você relatar um p<05, os leitores provavelmente acreditarão que você encontrou um efeito real. Talvez, no entanto, não haja realmente nenhum efeito e você tenha relatado um falso positivo.


innerself assinar gráfico


Muitas revistas publicam apenas estudos que podem relatar um ou mais efeitos estatisticamente significativos. Alunos de pós-graduação aprendem rapidamente que alcançar o mítico p

Esta pressão para alcançar pp hacking.

A atração de p hacker

Ilustrar p hackeando, aqui está um exemplo hipotético.

Bruce concluiu recentemente um PhD e conseguiu uma bolsa de prestígio para se juntar a uma das principais equipes de pesquisa em seu campo. Sua primeira experiência não funciona bem, mas Bruce rapidamente refina os procedimentos e realiza um segundo estudo. Isso parece mais promissor, mas ainda não dá p valor menor que .05.

Convencido de que ele está em algo, Bruce reúne mais dados. Ele decide abandonar alguns dos resultados, que pareciam claramente distantes.

Ele então percebe que uma de suas medidas dá uma imagem mais clara, então ele se concentra nisso. Mais alguns ajustes e Bruce finalmente identifica um efeito ligeiramente surpreendente, mas realmente interessante, que alcança p

Bruce tentou tanto encontrar o efeito que ele sabia estava à espreita em algum lugar. Ele também estava sentindo a pressão para acertar p

Há apenas um problema: não houve efeito algum. Apesar do resultado estatisticamente significativo, Bruce publicou um falso positivo.

Bruce sentiu que estava usando sua percepção científica para revelar o efeito à espreita enquanto tomava vários passos depois de iniciar seu estudo:

  • Ele coletou dados adicionais.
  • Ele deixou alguns dados que pareciam aberrantes.
  • Ele deixou cair algumas de suas medidas e se concentrou no mais promissor.
  • Ele analisou os dados de maneira um pouco diferente e fez alguns ajustes adicionais.

O problema é que todas essas escolhas foram feitas depois de vendo os dados. Bruce pode, inconscientemente, ter sido cherrypicking - selecionando e aprimorando até que ele obteve o indescritível pp

Os estatísticos têm um ditado: se você torturar os dados o suficiente, eles vão confessar. Escolhas e ajustes feitos depois de ver os dados são práticas de pesquisa questionáveis. Usando estes, deliberadamente ou não, para alcançar o resultado estatístico certo é p hacker, que é uma razão importante que publicou, resultados estatisticamente significativos podem ser falsos positivos.

Qual proporção de resultados publicados está errada?

Esta é uma boa pergunta, e diabolicamente complicada. Ninguém sabe a resposta, que provavelmente será diferente em diferentes campos de pesquisa.

Um grande e impressionante esforço para responder à questão da psicologia social e cognitiva foi publicado na 2015. Liderado por Brian Nosek e seus colegas do Center for Open Science, o Projeto de Replicabilidade: Psicologia (RP: P) Os grupos de pesquisa 100 em todo o mundo realizaram uma replicação cuidadosa de um dos resultados publicados pela 100. No geral, aproximadamente 40 replicado razoavelmente bemenquanto que em torno dos casos 60 os estudos de replicação obtiveram efeitos menores ou muito menores.

Os estudos de replicação 100 RP: P relataram efeitos que foram, em média, apenas metade do tamanho dos efeitos relatados pelos estudos originais. As replicações cuidadosamente conduzidas estão provavelmente dando estimativas mais precisas do que p estudos originais hackeados, para que pudéssemos concluir que os estudos originais superestimaram os verdadeiros efeitos, em média, por um fator de dois. Isso é alarmante!

Como evitar p hacker

A melhor maneira de evitar p hacking é evitar fazer qualquer seleção ou ajustes depois de ver os dados. Em outras palavras, evite práticas de pesquisa questionáveis. Na maioria dos casos, a melhor maneira de fazer isso é usar pré-registro.

O pré-registro requer que você prepare com antecedência um plano de pesquisa detalhado, incluindo a análise estatística a ser aplicada aos dados. Então você pré-registra o plano, com o carimbo de data, no Open Science Framework ou algum outro registro on-line.

Então realizar o estudo, analisar os dados de acordo com o plano e relatar os resultados, sejam eles quais forem. Os leitores podem verificar o plano pré-registrado e, portanto, ter certeza de que a análise foi especificada com antecedência, e não p hackeado. O pré-registro é uma ideia nova e desafiadora para muitos pesquisadores, mas provavelmente o caminho do futuro.

Estimativa em vez de p valores

A tentação de p hack é uma das grandes desvantagens de confiar em p valores. Outra é que o pÉ como dizer que um efeito existe ou não.

Mas o mundo não é preto e branco. Para reconhecer os vários tons de cinza, é muito melhor usar estimativa em vez de p valores. O objetivo com a estimativa é estimar o tamanho de um efeito - que pode ser pequeno ou grande, zero ou até negativo. Em termos de estimativa, um resultado falso positivo é uma estimativa que é maior ou muito maior que o valor real de um efeito.

Vamos fazer um estudo hipotético sobre o impacto da terapia. O estudo pode, por exemplo, estimar que a terapia dá, em média, uma diminuição da ansiedade no ponto 7. Suponha que calculamos a partir dos nossos dados intervalo de confiança - um intervalo de incerteza de cada lado da nossa melhor estimativa - de [4, 10]. Isso nos diz que nossa estimativa do 7 é, muito provavelmente, dentro de cerca de 3 pontos na escala de ansiedade do verdadeiro efeito - a verdadeira quantidade média de benefício da terapia.

Em outras palavras, o intervalo de confiança indica quão precisa é nossa estimativa. Conhecer tal estimativa e seu intervalo de confiança é muito mais informativo do que qualquer p valor.

Refiro-me à estimativa como uma das "novas estatísticas". As técnicas em si não são novas, mas usá-las como a principal maneira de tirar conclusões dos dados seria, para muitos pesquisadores, novo e um grande passo à frente. Também ajudaria a evitar as distorções causadas por p hacking.

Sobre o autor

Geoff Cumming, professor emérito, La Trobe University

Este artigo foi originalmente publicado em A Conversação. Leia o artigo original.

Livros relacionados:

at InnerSelf Market e Amazon