Aquí hay una serie de características de los datos de expresión génica. En muchos sentidos, se aplican a cualquier análisis de datos, pero los analizaré en el contexto de la expresión génica:
1. N <<< p y multicolinealidad
No es raro tener cientos de miles, incluso millones de columnas, con solo docenas de muestras. La selección variable y / o la reducción de dimensiones son necesidades absolutas. Utilice modelos que aborden la multicolinealidad.
Debido a este problema, ni siquiera se moleste en las interacciones de modelado sin un gran tamaño de muestra (a menos que tenga interacciones de interés anteriores).
- ¿Por qué hay personas de piel oscura de Micronesia con cabello rubio y ojos azules?
- ¿Tienes un gemelo idéntico? ¿Puedes compartir algunas cosas interesantes que nacen de esa manera?
- ¿No es la devoción de la gente común a la monarquía hereditaria británica, asegurando así su continuidad, un gran error de una gran nación?
- ¿Son los genes dominantes más superiores que los genes recesivos ya que producen más proteínas?
- ¿Qué sucede si un gen cambia su secuencia?
Un enfoque biológico también puede ayudar. Se sabe que los genes están correlacionados de ciertas maneras, como a través de enlaces o en vías. Estos pueden ser potencialmente modelados.
2. Tener un propósito
Dependiendo de su objetivo, los diferentes tipos de modelos funcionarán mejor. Si el objetivo es predecir un fenotipo asociado, adopte un enfoque de recuadro negro y simplemente optimice para la función objetivo. Por otro lado, si la identificación de genes es una preocupación principal, es probable que desee ser más estricto al seleccionar sus variables. Se necesitarán múltiples ajustes de prueba de hipótesis, como tasas de descubrimiento falsas.
Por ejemplo, cualquiera puede crear una trama de componentes principales, que puede parecer informativa. En el mejor de los casos, es útil, significativo y fácilmente interpretable. En el peor de los casos, será poco informativo y engañoso. PCA puede producir muchos artefactos que un analista inexperto no notará.
3. El procesamiento de datos es importante
La forma en que se recopilaron los datos afectará los datos. Esto es básicamente un error del instrumento. Los datos de expresión génica están “normalizados”, lo que en sí mismo aplica un modelo para ajustar los datos sin procesar. Al igual que cualquier modelado, hay diferentes formas de normalizar los datos, cada una con sus propios supuestos.
4. El muestreo de datos es importante
Tenga un buen diseño experimental que minimice los efectos de confusión. Esto también se puede aplicar al procesamiento de datos. Reproducir exactamente. Recuerde que la expresión génica varía con el tejido. Diseña tu experimento de acuerdo a tus objetivos experimentales (ver # 2).
5. Pruebe diferentes modelos
Todos los modelos están equivocados, pero algunos son útiles. Esto es tanto más cierto para los datos de expresión génica debido a la naturaleza compleja de las relaciones y distribuciones de genes. Los supuestos de regresión de OLS de normalidad e independencia ciertamente serán falsos, así que sea creativo con el modelado. Pero aún puede ser suficiente.
6. Las técnicas de aprendizaje automático son tus amigos
Debido a todos los problemas anteriores, las técnicas iterativas y la validación cruzada son críticas para evitar señales falsas y validar su modelo o conclusiones. También es una buena manera de descubrir una manera de comparar objetivamente sus modelos.