¿Es válido el argumento de que “la obsesión con los valores p está arruinando la ciencia”?

Si, o tal vez no.

La educación estadística sobre los valores p, en efecto, ha perjudicado a la ciencia y ha hecho que el pensamiento estadístico parezca anticuado y anticuado. Y es cierto que hay estadísticos que realmente necesitan seguir el programa. El hecho es que las pruebas de significación de hipótesis nulas (NHST) con valores p nunca se utilizaron de la manera en que se usan. Ver, por ejemplo, Fisher, Neyman-Pearson o NHST? Un tutorial para enseñar pruebas de datos

La obsesión con los valores p, así como el malentendido acerca de ellos, la mala interpretación de ellos, no es culpa de las estadísticas, sino de la educación estadística. A lo largo de mis días de tutoría, los estudiantes a quienes se les enseñó bien y tenían buenos textos fueron raros. Sí, el valor p no es un enunciado de probabilidad clásico, y sí, necesitamos el pensamiento bayesiano para obtener uno. Pero durante mucho tiempo no hubo los recursos computacionales para hacer nada bayesiano remotamente bien … toda la razón por la que el pensamiento frecuentador alcanzó tanta importancia. El frecuente tiene su lugar y puede ser efectivo.

Por supuesto, con publicar o perecer, el mal uso de los valores p floreció. Quizás hay quienes realmente entendieron que estaban diciendo algo incorrecto sobre su experimento cuando usaron un valor p, pero dijeron que tenía más impacto. Y, dado el sistema, no estoy completamente seguro de culparlos.

El problema educativo está empeorando porque esto se ha sacado a la luz en lugar de mejorar. Ah, claro, a los científicos se les está enseñando mejor (o quizás no. Próximo párrafo) … pero, ¿cuántos “científicos de datos” degradan e ignoran las estadísticas sin comprender que las estadísticas son una gran fuente de sus algoritmos y una forma clave de entenderlos?

En cuanto a los de la ciencia: a los que se les enseña la visión frecuentista ahora, presumiblemente, se les dice que no usen valores p en absoluto. O Neyman-Pearson, probablemente. Pero bajo el marco frecuentista, no hay nada más que exista para hacer pruebas serias. Entonces … se está tirando algo en lugar de alterar la comprensión y el uso de él cuando realmente no hay nada que lo reemplace. ¿Qué sentido tiene eso?

estadísticaInvestigación científica

¿Cómo cambiará el futuro de la salud y la ciencia con una mayor investigación de las células madre?

¿Cómo afecta la bioética a la investigación científica?

¿Qué aspectos de la investigación en neurociencia son difíciles, tediosos o aburridos?

¿Dónde se publican los estudios de investigación en línea?

¿Cómo es que la paedomorfosis tiene un papel evolutivo en animales triploblásticos bilateralmente simétricos?

¿Qué situaciones cotidianas pueden usar el método científico?

No creo que la ciencia esté arruinando nada, eso parece ser un poco hiperbólico.

Por otro lado, la obsesión con los valores p como b-all y (lo más grave) final de todo estudio es un problema. Un valor p no es más que una solución para un rompecabezas estadístico, que puede ayudarnos a orientarnos en la dirección de las cosas que parecen merecer más estudio, pero:

un valor p por sí mismo, acompañado con el equivalente de “voila”, no tiene valor. La noción de que un resultado particular ha sido considerado “significativo” por la aplicación de una medida arbitraria (nivel de significancia) es, por lo tanto, importante en el corazón del problema.
un pequeño valor p, reportado solo, no proporciona información útil: no sabemos si su tamaño se debe a efectos importantes en los datos, el tamaño de la muestra o cualquier otra cosa, y son precisamente esas causas las que deberían estar en el vanguardia de la discusión
en el otro extremo, se descartan demasiado los valores p grandes (es decir, “no significativos”), por una variedad de razones: la idea equivocada de que los “resultados negativos” nunca son importantes es importante, pero también lo son las razones dadas anteriormente para el problema con valores p pequeños: no sabemos si un valor p “grande” no se debe a ningún efecto, efecto mínimo, tamaño de muestra u otra cosa, a menos que se discutan esas otras cosas

Agregue a eso el hecho de que la comunicación de lo que realmente es un valor p ha sido mal enseñada (si tuviera un centavo por cada vez que alguien con quien estaba trabajando dijo “Entonces, el valor p es la probabilidad de que la hipótesis nula sea verdadera , ¿correcto? “Tendría tantas monedas de diez centavos que no tendría forma de transportarlas al banco, por lo que se volverían tan inútiles como un valor p sin discusión de apoyo.) para muchos no especialistas: se da lejos demasiado énfasis en los ejemplos y problemas en muchos textos introductorios. Eso es culpa nuestra (estadísticos), y aunque sé que un buen número de personas está tratando de remediar esto, es una gran lucha, ya que el método actual de presentación se ha consolidado firmemente.

También hay otro problema: la reciente expansión (como en los últimos 20 años más o menos) en la informática asequible y el software disponible para hacer estadísticas ha aumentado el número de personas que hacen su propio trabajo e informan valores p porque saben que son importante pero no está lo suficientemente familiarizado con las estadísticas para darse cuenta de que deberían incluir más detalles.

Por supuesto, todo esto es mi opinión, y como no he sido elegido árbitro principal de “Procedimientos estadísticos correctos universalmente”, no son evangelio.

Ted Wrigley

Bueno, creo que eso es exagerado. El verdadero problema es la forma en que la comunidad científica se ha vuelto dependiente de la publicación. En la mayoría de los entornos académicos, el avance, la permanencia, incluso las carreras completas se basan en ser publicados, por lo que se lleva a cabo una gran cantidad de investigación no porque agregue mucho (si es que hay) conocimiento científico, sino porque los académicos en cuestión deben publicar algo. Eso significa que las revistas están inundadas de presentaciones triviales, y los revisores (que son científicos y están ocupados tratando de publicar su propio trabajo) buscan atajos en el proceso de revisión. Los valores P son fáciles y rápidos de evaluar; El análisis del significado es difícil y requiere mucho tiempo.

El único sentido en el que esto está arruinando la ciencia pura es que las revistas científicas se han convertido en vastos depósitos de investigaciones en su mayoría inútiles, por lo que encontrar material interesante y útil en estos días requiere más o menos algoritmos de búsqueda computarizados. Si está arruinando o no el trabajo clínico es un asunto diferente. La mayoría de las compañías farmacéuticas (me temo) realmente no les importa si sus medicamentos hacen mucho, siempre y cuando puedan decir que sus medicamentos hacen algo , y los valores p son perfectamente adecuados para mostrar que algo está sucediendo (por trivial que sea) .

Lee Witt

Si. Y es cierto incluso sin considerar las publicaciones (aunque eso también es un problema)

El valor p responde una pregunta que casi nunca nos interesa:

Si, en la población de la que se seleccionó la muestra al azar, la hipótesis nula era estrictamente cierta, ¿qué tan probable es que una estadística de prueba sea al menos tan extrema como la que obtuvimos en una muestra del tamaño de la que tenemos?

Peter Flom

More Interesting

¿Cuál es la última y sorprendente cosa científica?

¿Cuál es el futuro de Massive MIMO en el campo de la investigación?

¿Cuáles son los artículos científicos más citados de 2012?

¿Se ha realizado alguna investigación científica para estudiar los poderes exhibidos con frecuencia por médicos vudú, chamanes y sectas religiosas?

¿Los experimentos de Josef Mengele dieron como resultado algún avance en la medicina?

¿Cómo se quedaron tan atrás empresas como Nokia, Microsoft o Blackberry (anteriormente RIM), que invirtieron tanto en investigación cuando Apple lanzó el iPhone? ¿Por qué no tuvieron la capacidad de lanzar un dispositivo al menos similar al iPhone en un año?

¿Cuáles son los avances, descubrimientos o inventos realizados en la ciencia por la India entre 2004 y 2013?

¿Por qué se archiva un PIL?

¿Por qué los estudios de investigación necesitan ser replicados para verificación?

Con esta velocidad exponencial de nuevos conocimientos científicos que tenemos cada año, ¿cuántos años se requieren para lograr todo el conocimiento científico?