¿Por qué se elige el valor P <5 × 10 ^ -8 como umbral para alcanzar la significación de todo el genoma?

Por lo que puedo decir: porque es bastante estricto y algunas revistas decidieron que necesitaban elegir algo para descartar periódicos que publicaran resultados espurios.

Un valor p bajo es importante para los estudios de GWAS, especialmente en humanos, porque el intento es encontrar genes causales importantes o marcadores altamente diagnósticos. GWAS está mal diseñado para la predicción (aunque puede ser una parte útil de un modelo de predicción, un rasgo es oligogénico).

El usuario de Quora tiene la idea correcta; La población humana típica en estudio tiene aproximadamente 1 millón de segmentos cromosómicos independientes (por ejemplo, entre europeos). Esto se basa en datos de ENCODE. Tenga en cuenta que, en las poblaciones africanas, hay alrededor de 2 millones de segmentos independientes. (Ver Estimación de la carga de las pruebas múltiples para los estudios de asociación del genoma de casi todas las variantes comunes). Otra investigación también ha llegado a los mismos números y recomendaciones, y los loci identificados con este estricto valor p tienden a mantenerse en diferentes experimentos.

Notas adicionales:
Sin embargo, 5 x 10 ^ -8 no es el único umbral. Existen otros umbrales, incluidos los basados ​​en el experimento. Estos incluyen ajustes de Bonferroni (basados ​​en el número de SNP o pruebas), tasa de descubrimiento falso (FDR) y pruebas de permutación. Las variaciones en lo que se usa se basa en la comunidad, el poder computacional y ciertos aspectos de los datos (principalmente relacionados con la independencia de los loci, es decir, el desequilibrio de enlace).

Para ser claros, esta sigue siendo un área activa de investigación.

Una cosa que probablemente no se considera con la suficiente frecuencia es lo que los investigadores esperan hacer con sus resultados. En un gran contraste, un estudio de GWAS descubrió que solo podían representar el 15% de la variabilidad observada en la altura, que tiene una heredabilidad de ~ 80% (Cientos de variantes agrupadas en loci genómicos y rutas biológicas …). Eso está usando tus umbrales clásicos. Pero la altura es un rasgo altamente poligénico y cuantitativo, tanto que el modelo infinitesimal de Fisher funciona bastante bien. Cuando un grupo básicamente intentó evitar cualquier tipo de umbral, lograron explicar el 45% de la variabilidad observada (los SNP comunes explican una gran proporción de la heredabilidad para la altura humana). ¡Todavía no es 80%, pero es mucho mejor que 15%!

Mi punto es que los modelos GWAS típicos que usan alfa de 5 x 10 ^ -8 solo son buenos para identificar variantes comunes de efecto relativamente grande. Los alelos menores y los alelos de efecto pequeño no serán capturados, lo que domina en ciertos rasgos.

Este artículo tiene una gran discusión sobre las pruebas de hipótesis múltiples en GWAS: análisis estadístico básico en estudios genéticos de casos y controles.

Supongo que es una corrección de Bonferroni para pruebas múltiples donde el número de pruebas es del orden de [matemáticas] 10 ^ 6 [/ matemáticas], [matemáticas] (5 \ veces 10 ^ {- 8} = \ frac { 0.05} {10 ^ 6}) [/ matemáticas].

¿Quizás podría agregar más detalles sobre el origen de este número?