Cómo saber si un trabajo académico ha realizado la pesca de valor p

Muchos valores p justo por debajo de 0.05. Nada más, nada muy por debajo.

Eso sugiere que jugaron con los análisis (o recopilaron más datos) hasta que fueron estadísticamente significativos.

Digamos que tiene una prueba t con dos grupos, cada grupo tiene N = 100 y el tamaño del efecto de la población es 0.279. Si su muestra representa exactamente su población, obtendrá un valor p de 0.05.

Aquí hay un código R para mostrar eso.

y1 <- escala (rnorm (100))
y2 <- escala (rnorm (100)) + 0.279
t.test (y1, y2)

¿Qué pasa si tomaste muestras de esa población 1000 veces? Más código:

runSims <- función (x) {
y1 <-rnorm (100)
y2 <-rnorm (100) + 0.279
return (t.test (y1, y2) $ p.value)
}
lotsOfPs <- sapply (1: 1000, runSims)

El histograma de los valores p debería verse así:

Y aquí está la tabla:

Var1 Freq
1 0 216
2 0.01 125
3 0.02 78
4 0.03 57
5 0.04 34
6 0.05 36
7 0,06 23
8 0.07 27
9 0,08 13
10 0,09 22
11 0.1 12
12 0.11 21
13 0,12 16
14 0.13 7
15 0.14 16
16 0,15 15
17 0,16 13
18 0,17 16
19 0,18 12
20 0.19 13
21 0,20 + 228

Así es como se ve una distribución real de valores p. Encontramos que (aproximadamente) una vez en 8, la p es menor que 0.01, y una vez en 4 es mayor que 0.20. Si tienen un montón de valores p alrededor de 0.05, nada por debajo de 0.01 y nada por encima de 0.20, eso es sospechoso.

Se necesita experiencia, pero se reduce a muchas pruebas.

Lo que hay que tener en cuenta en muchas pruebas no solo significa la tradicional “prueba de hipótesis múltiples”.

Considere ampliamente las “pruebas” múltiples:

  • comparaciones de medios múltiples (tradicional)
  • comparaciones de modelos múltiples (los modelos demasiado complicados generalmente solo se descubren a través de pruebas exhaustivas, que por cierto, pueden estar bien para las predicciones de recuadro negro)
  • buscando la mejor transformación, en cualquier sentido. “Log” tradicional, “raíz cuadrada”, “transformaciones de potencia”, pero también binning, distribuciones modificadas, etc.
  • interacciones
  • polinomios
  • la creación de nuevas variables (por ejemplo, variables combinadas)
  • alfas impares o grandes (incluidos los ajustes inapropiados del valor p)

Todo esto podría considerarse pesca si se usa en exceso. Cada prueba y modelo construido, en sentido estricto, utiliza grados de libertad.

Un buen artículo discutirá estas deficiencias, usará múltiples ajustes de prueba de hipótesis (Bonferroni, Tukey’s, Diferencia menos significativa de Fisher (LSD), Tasa de descubrimiento falso * – puedo mencionar que me encanta FDR), o discutirá los antecedentes (es decir, explícitamente no pescar sino enfocar hipótesis ) La pesca puede estar bien en muchos casos, por ejemplo, como un estudio piloto, pero un autor debe decirlo y sugerir los estudios de seguimiento que sean necesarios.

Normalmente en un campo tan lleno de respuestas tan expertas, me alegra tener la oportunidad de aprender de ustedes. Pero en este caso, creo que la visión de mi extraño podría ser marginalmente aditiva:

Ahora poseemos los recursos informáticos para documentar completamente todos los procesos de investigación. Ya no deberíamos tener que depender de los análisis forenses para determinar el rigor metodológico de cualquier estudio o la honestidad y precisión de cualquier informe sobre los resultados de un estudio.

No estoy diciendo que todos debamos dedicar cientos de horas a revisar el metraje de video y la documentación de pulsaciones de teclas para cada estudio que examinamos. Digo que deberíamos considerar que es una parte estándar de la documentación de cualquier estudio, aunque solo sea porque aceleraría en gran medida la rapidez con la que todos adoptamos los métodos adecuados y erradicaría en gran medida la mala investigación y los malos resultados. Y cuando encontramos algo realmente notable, aceleraría enormemente la aceptación de ese hallazgo y ayudaría a la recreación de ese estudio por parte de otros para verificar los resultados.

Los escritores inteligentes pueden ocultar la pesca de valor p en muchos casos, incluso sin mentir abiertamente.

Sugiero que, en lugar de buscar directamente la pesca con valor p, todos deberíamos usar lo que Robert Abelson en Estadísticas como Argumento Principled llama “El criterio MÁGICO”:

Magnitud: qué tan grande es el efecto
Articulación: ¿está lleno de ifs, ands y buts?
Generalidad: ¿cómo se aplica generalmente?
Intereses: ¿a alguien le importaría y por qué?
Credibilidad: cuanto menos creíble sea el reclamo, más evidencia se necesita.

Tenga en cuenta que los valores p no aparecen en esta lista. Sin embargo, un documento que tiene un registro de valores p bajos y falla los criterios MAGIC probablemente sea defectuoso.

Terminaré con una cita de mi profesor favorito en la escuela de posgrado, Herman Friedman. Cuando veía un papel lleno de valores de p, decía

Deja de p-ping en la investigación

Aquí hay algunas formas de detectar minería de datos.

1. Vea si la especificación tiene sentido. ¿Le faltan al modelo algunas variables obvias o la muestra es de alguna manera muy limitada?

2. Falta de pruebas de robustez o pruebas de robustez sin sentido.

3. El papel sigue hablando de otros puntos en lugar del mensaje principal.

4. Los autores tienen reputación o son sospechosos de realizar una manipulación límite de datos.

Es por eso que realmente necesitamos publicar nuestros datos y código. Es una pena que la replicación sea tan difícil …

Hay una manera simple en los documentos que informan ensayos clínicos: verifique el documento del protocolo con el documento de resultados. Si el análisis presentado en los resultados fue por protocolo, entonces no hay problemas. Si hay un nuevo análisis no planificado que ahora es el único mensaje importante y principal, entonces es posible que este sea el resultado de un viaje de pesca.

Obviamente, nunca se puede saber con certeza, pero una señal clara es que parece “demasiado bueno para ser verdad”. Los datos reales tienden a ser un poco desordenados y tienen algunos obstáculos en el camino. Los resultados falsificados o pirateados tienden a ser demasiado limpios.

Se trata de exclusiones: qué datos se excluyen por cualquier razón, y si esos datos están incluidos, entonces la conclusión seguirá siendo cierta.

More Interesting

¿Se prefiere discutir las limitaciones del método propuesto en el documento?

¿Tarda demasiado en publicar una investigación? El artículo en "Nature" presenta algunos datos y perspectivas interesantes.

¿Qué cosas buenas han hecho los establecimientos de ciencia cerrada?

¿Cómo marcan los examinadores de A-Levels sus respectivos documentos?

¿Cuál es la razón por la cual los documentos, sitios y agencias matrimoniales indias están llenos de castas, castas y castas, cuando nuestros jóvenes, padres e intelectuales modernos e intelectuales indios odian la reserva?

¿Cómo reaccionaría el mundo si alguien escribiera el artículo matemático más revolucionario?

Cómo citarme en un documento donde incorporo elementos de documentos anteriores que he escrito

¿Qué tipo de preguntas se esperan para IIIT, el examen CND (NK) de Hyderabad? ¿Están disponibles los documentos de preguntas del año anterior?

Mientras escribimos un trabajo de investigación, ¿cómo decidimos qué palabras deben escribirse en cursiva?

Cómo realizar un resumen de mi trabajo de investigación pasando de detalles generales a específicos

¿Existe un conjunto de datos de artículos matemáticos que se hayan publicado?

¿Qué necesito hacer para publicar mi trabajo de investigación sobre agricultura?

¿Cuál es el artículo más citado en física?

¿Hay alguna manera posible de que se acepten trabajos académicos en una revista o revista en el primer año de secundaria?

¿Cuáles son algunos buenos documentos sobre problemas de visualización?