Habiendo medido los niveles de expresión génica de varias personas, ¿cómo decidiría qué genes son más importantes o están involucrados en el proceso de la enfermedad?

(1) Si su gente pertenece a dos o más grupos, es decir, si tiene algunas muestras de individuos humanos sanos y algunas muestras de individuos con esa enfermedad, puede encontrar los genes que están EXPRESADOS DIFERENTEMENTE (DE). Esos son los genes que se expresan de manera consistente y significativa en diferentes cantidades entre las personas sanas y las personas con la enfermedad. Se espera que tales genes estén relacionados de alguna manera con la enfermedad. t-statistic, s-statistic, B-statistic y fold-change se encuentran entre los métodos que se pueden usar para esto. El paquete “limma” del “Proyecto bioconductor” del “lenguaje R” de código abierto tiene funciones que pueden medir esas estadísticas.
(2) Pruebe la agrupación de genes, la agrupación simple como la agrupación jerárquica o la agrupación más sofisticada como la agrupación de conjuntos (por ejemplo, Paradigm of Tunable Clustering Using Binarization of Consensus Partition Matrices (Bi-CoPaM) para Gene Discovery).

No existe un método o modelo único para analizar dichos datos, y aún no sabemos qué es lo mejor. Además, es casi seguro que no existe un método analítico único que sea mejor para todos los escenarios.

Al final de todo, estás combinando (asociando) respuestas de enfermedades con datos de expresión génica. En otras palabras, es unir números con números, ¿te suena familiar? Es regresión en el sentido más amplio.

Vea algunas respuestas aquí, incluida la mía:
Bioinformática: ¿Qué debe saber un científico de datos sobre el análisis de datos de expresión génica?

Lo único que agregaría a mi propia respuesta es que puede incluir algunos conocimientos previos, en forma de teoría biológica (por ejemplo, interacciones genéticas conocidas) o investigación previa.

Por agrupamiento de genes y análisis de mapas de calor

Todos ellos. Seriamente.