Si se aceptan resultados estadísticos basados ​​en un nivel de confianza del 95%, ¿eso significa que 1 de cada 20 artículos científicos informan resultados que pueden no ser ciertos?

Eso se aplicaría solo si los resultados estuvieran de hecho en los límites del nivel de confianza de dos sigma. Implica que hasta 1 de cada 20 artículos está equivocado, pero no que el 5% esté equivocado. Es absolutamente falso que “al menos 1 de cada 20” documentos pueden no ser correctos por razones estadísticas. La prueba estadística le pone un límite superior, y ese límite es mucho más alto en teoría que en la práctica.

En la práctica, la mayoría de las veces, los datos confirmarían un nivel de confianza más alto que eso. Si el documento es útil, a menudo se replicará y los errores estadísticos resultantes de los errores de Tipo I aparecen con bastante rapidez. Si el experimento no se replica, generalmente es porque su utilidad es solo marginal.

Cuando la aceptación de un hecho es crítica, los científicos exigen más de una confianza de dos sigma antes de aceptar un artículo. Los físicos de partículas, en particular, requieren un criterio de cinco sigma antes de confirmar la existencia de una nueva partícula.

La preocupación pública por la ciencia tiene poco que ver con el tema de las dos sigmas. Tiene más que ver con la prensa popular que malinterpreta los resultados cuando los ven.

Una preocupación estadística más significativa se encuentra en el procedimiento general. Algunos campos, especialmente los que tienen un efecto sobre la salud humana, tienden a repetir los experimentos hasta que obtienen uno con un resultado de dos sigma y luego se apresuran a publicar antes de replicarlo ellos mismos. La sensibilidad temporal a la prioridad tiene implicaciones financieras y puede ser buena para los negocios pero mala para la ciencia. Esta es la causa del reciente estudio que encontró que la mayoría de los estudios de cáncer conocidos no podían ser replicados.

Allí, el hecho de un resultado de dos sigmas es engañoso, ya que no incorpora experimentos que se consideran fallidos y descartados como problemas de procedimientos de laboratorio en lugar de resultados negativos genuinos. Y este es un problema real: cualquier procedimiento de laboratorio real es delicado y complicado, y se puede estropear fácilmente.

La credibilidad de la ciencia se vería enormemente mejorada por una mejor comprensión pública de cómo funciona la ciencia, pero solo como una medida general. El problema de las sigmas insuficientes, en sí mismo, es engañoso.

Si tiene alguna colección de documentos que informaron que no es mejor que un nivel de confianza del 95%, entonces, en promedio, 1 de cada 20 sería incorrecto, sí. XKCD le da un toque humorístico a esto:

Fuente: http://xkcd.com/882/
Texto alternativo: ‘Entonces, eh, hicimos el estudio verde nuevamente y no obtuvimos ningún enlace. Probablemente fue una … ” INVESTIGACIÓN CONFLICTADA EN GREEN JELLY BEAN / ACNE LINK; ¡MÁS ESTUDIO RECOMENDADO!

El valor de corte del 95% para los valores p no implica que 1 de cada 20 artículos científicos contenga resultados falsos, ya que muchos documentos pueden presentar resultados que son verdaderos con valores mucho más bajos de valores p.

Sin embargo, estaría perfectamente dispuesto a creer que 1 de cada 20 artículos científicos no tienen sentido por razones estadísticas. Por un lado, existe un gran sesgo hacia los resultados “positivos”: si un estudio encuentra que “no, eso no funciona”, es muy poco probable que se publique. En consecuencia, el trabajo del estadístico en la mayoría de los proyectos no es asegurarse de que las estadísticas se verifiquen, sino inventar alguna forma de hacer que los resultados parezcan significativos.

Vi una cita, creo del epidemiólogo estadístico Walter Willett, que no puedo localizar (¡ayúdenme aquí, internet!), Pero que esencialmente decía: “Cuando establecimos la correlación entre fumar y el cáncer, demostramos que sus posibilidades de fumar aumentará en un 3.000% si fuma. Ahora, la mayoría de los estudios tienen conclusiones sobre el efecto de “estamos 95% seguros de que comer X aumenta sus posibilidades de contraer cáncer en más de un 0%”.

Esto se está convirtiendo en un problema lo suficientemente grave como para que ahora haya propuestas de que los investigadores deberían verse obligados a registrar cualquier estudio antes de realizarlo y publicar los resultados después, ya sea que sean “positivos” o no.