¿Por qué el algoritmo de agrupamiento es tan popular en el análisis de genes?

Si observa las técnicas de aprendizaje automático, existen dos categorías amplias: aprendizaje no supervisado para el descubrimiento de clases de abeto y métodos supervisados ​​para la asignación de clases. Una clase o etiqueta es una categoría de interés.

El uso de HMM PFAM para asignar proteínas a las familias es un ejemplo de asignación de clase: conocemos las etiquetas de interés (las familias de proteínas) y deseamos etiquetar nuestras proteínas de consulta con ellas.

Con datos de perfiles de expresión de microarrays o RNA-Seq, a menudo realmente no conocemos las etiquetas apropiadas. Por lo tanto, los algoritmos de agrupación como la agrupación jerárquica nos permiten descubrir estructuras en los datos sin ideas preconcebidas de lo que son. El problema es que ahora tenemos clases, pero no entendemos la lógica biológica de esas clases. Por lo tanto, los métodos supervisados, como el análisis de enriquecimiento, se utilizan para tratar de determinar qué “significan” los grupos.