¿Qué son los módulos propios y genéticos?

Los datos genómicos, como los datos de expresión génica y los datos de variantes, tienen una dimensionalidad muy alta, es decir, hay demasiadas variables y pocos puntos de datos. Cuando tiene un conjunto de datos de expresión génica, puede estar interesado en identificar grupos de genes que muestran patrones de expresión similares.

Una de las formas de hacer esto es WGCNA o análisis ponderado de redes de coexpresión de genes. En términos simples, lo que está tratando de hacer es identificar genes que muestran patrones de expresión similares en muestras o condiciones. Estos grupos de genes se denominan módulos. WGCNA identifica módulos mediante el uso de un tipo de análisis de componentes principales (PCA). Aquí, cada módulo está representado por un valor de expresión que pertenece al módulo ‘eigengene’. Este valor se identifica desde el PCA. Ninguno de los genes reales en el módulo necesita tener realmente este valor de expresión.

Como cada gen propio representa un módulo, se puede calcular la distancia de un gen al gen propio y, por lo tanto, al centro del módulo. Esto nos dice en qué módulo se encuentra cada gen.

No estoy seguro en qué contexto se refiere a los términos ‘eigengene’ y ‘módulo de genes’. Pero mi mejor conjetura es que está hablando de ello en el contexto de WGCNA (Análisis de red de coexpresión de genes ponderados).

Si desea hacer un análisis de wgcna en un conjunto de datos de expresión génica, el principio general es, primero, construir una red de correlación entre los genes en función de su coexpresión donde un gen es un nodo y pone una ventaja entre 2 genes si pasa un umbral establecido de fuerza de coexpresión. A veces, las personas crean una Matriz de superposición topológica (TOM) [1] sobre la red de correlación, pero no tiene que preocuparse por eso en este momento. Después de obtener una red, haces agrupamiento jerárquico [2] en los genes más conectados. Este es un método de aprendizaje no supervisado donde un árbol se construye de abajo hacia arriba conectando los 2 genes más cercanos en términos de la distancia que usted decida. De esa manera, cuando se construya su árbol, tendrá una serie de grupos donde los genes están estrechamente conectados.

Después de obtener el árbol, lo cortas a una cierta distancia, de nuevo por qué y cómo lo haces se explica maravillosamente en la referencia número 2 que proporcioné. Después de cortar el árbol, obtienes varios módulos donde los genes están altamente conectados y pueden proporcionar información biológica. Estos módulos se denominan “módulos de genes”.

Cuando desee comparar un módulo de genes con otro, puede ser ventajoso tomar solo un representante de ese módulo en lugar de tomar todos los genes. Es entonces cuando realiza un Análisis de componentes principales [3] que puede reducir sus datos de manera significativa y luego toma el primer componente principal como un resumen de ese módulo. Este primer componente principal se llama “eigengene” en este contexto.

Puede encontrar toda la terminología necesaria con respecto a wgcna aquí [4]. Un tutorial brillante con cada paso del análisis de WGCNA se puede encontrar aquí [5]. Está escrito por los autores del paquete WGCNA R.

Notas al pie

[1] https://labs.genetics.ucla.edu/h

[2] Agrupación jerárquica (parte 1) – Universidad Johns Hopkins | Coursera

[3] Formulación del problema del análisis de componentes principales

[4] https://labs.genetics.ucla.edu/h

[5] https://labs.genetics.ucla.edu/h