Bioinformática: ¿Qué debe saber un científico de datos sobre el análisis de datos de expresión génica?

Aquí hay una serie de características de los datos de expresión génica. En muchos sentidos, se aplican a cualquier análisis de datos, pero los analizaré en el contexto de la expresión génica:

1. N <<< p y multicolinealidad
No es raro tener cientos de miles, incluso millones de columnas, con solo docenas de muestras. La selección variable y / o la reducción de dimensiones son necesidades absolutas. Utilice modelos que aborden la multicolinealidad.

Debido a este problema, ni siquiera se moleste en las interacciones de modelado sin un gran tamaño de muestra (a menos que tenga interacciones de interés anteriores).

Un enfoque biológico también puede ayudar. Se sabe que los genes están correlacionados de ciertas maneras, como a través de enlaces o en vías. Estos pueden ser potencialmente modelados.

2. Tener un propósito
Dependiendo de su objetivo, los diferentes tipos de modelos funcionarán mejor. Si el objetivo es predecir un fenotipo asociado, adopte un enfoque de recuadro negro y simplemente optimice para la función objetivo. Por otro lado, si la identificación de genes es una preocupación principal, es probable que desee ser más estricto al seleccionar sus variables. Se necesitarán múltiples ajustes de prueba de hipótesis, como tasas de descubrimiento falsas.

Por ejemplo, cualquiera puede crear una trama de componentes principales, que puede parecer informativa. En el mejor de los casos, es útil, significativo y fácilmente interpretable. En el peor de los casos, será poco informativo y engañoso. PCA puede producir muchos artefactos que un analista inexperto no notará.

3. El procesamiento de datos es importante
La forma en que se recopilaron los datos afectará los datos. Esto es básicamente un error del instrumento. Los datos de expresión génica están “normalizados”, lo que en sí mismo aplica un modelo para ajustar los datos sin procesar. Al igual que cualquier modelado, hay diferentes formas de normalizar los datos, cada una con sus propios supuestos.

4. El muestreo de datos es importante
Tenga un buen diseño experimental que minimice los efectos de confusión. Esto también se puede aplicar al procesamiento de datos. Reproducir exactamente. Recuerde que la expresión génica varía con el tejido. Diseña tu experimento de acuerdo a tus objetivos experimentales (ver # 2).

5. Pruebe diferentes modelos
Todos los modelos están equivocados, pero algunos son útiles. Esto es tanto más cierto para los datos de expresión génica debido a la naturaleza compleja de las relaciones y distribuciones de genes. Los supuestos de regresión de OLS de normalidad e independencia ciertamente serán falsos, así que sea creativo con el modelado. Pero aún puede ser suficiente.

6. Las técnicas de aprendizaje automático son tus amigos
Debido a todos los problemas anteriores, las técnicas iterativas y la validación cruzada son críticas para evitar señales falsas y validar su modelo o conclusiones. También es una buena manera de descubrir una manera de comparar objetivamente sus modelos.

Justin Ma ofrece una excelente respuesta. Sin embargo, me gustaría agregar la importancia de comunicarse con expertos en los datos. Discutir los análisis de datos realizados y los resultados logrados son una excelente manera de aprender aún más sobre los datos y tomar decisiones sobre pasos adicionales.

Visualizar los datos en un formato que los biólogos expertos en la materia entiendan bien es una manera perfecta de obtener más información sobre los datos. Especialmente, los datos de expresión génica a veces pueden ser contra-intuitivos para un científico de datos sin un fondo biológico completo. Ser capaz de visualizar los resultados y los análisis a menudo hace que el tema sea discutible con expertos que rápidamente pueden señalar la (in) corrección de los resultados.

Especialmente los científicos de datos que tienen una amplia experiencia en los principios de los científicos de datos, pero que no tienen una comprensión profunda de las diversas implicaciones del contexto biológico deberían tener esto en cuenta.

Además de las excelentes respuestas de Justin Ma y Laurens van de Wiel, hay otra cosa importante que los científicos de datos deben saber sobre el análisis de expresión génica: muchos biólogos confían muy poco en el resultado de estos análisis. Esto es en gran parte una reacción (reacción exagerada, tal vez ) a los primeros días del análisis de expresión génica, donde se extrajeron conclusiones grandes e incorrectas de ensayos que estaban mal diseñados, mal controlados y mal analizados. (La respuesta de Justin en particular apunta a algunos de los primeros problemas con estos sistemas).

Creo que las técnicas recientes son mucho mejores e incluso pueden ser confiables, pero tomará algún tiempo antes de que los biólogos una vez quemados vuelvan a tener fe en ellos nuevamente.

Así que no se sorprenda de una actitud muy escéptica, o un seguimiento lento, al análisis de la expresión génica por parte de los científicos de laboratorio.