¿Qué efecto tiene la eliminación de valores atípicos en el análisis cuantitativo de los datos genéticos?

Si decide incluir valores atípicos o no, dependerá de los objetivos de su experimento.

Sin entrar en demasiada teoría, un problema común con la inclusión de valores atípicos (en cualquier análisis, no solo genética), es que sus modelos tenderán a estar fuertemente influenciados por esas observaciones. Por ejemplo, los valores atípicos a menudo formarán sus propios grupos en el análisis de grupos, y la mayor parte de la población se diferenciará de manera extraña. En el caso de PCA, los componentes principales a menudo harán un buen trabajo al diferenciar los valores atípicos, pero a expensas de diferenciar grupos más interesantes.

Sin embargo, esto vuelve a sus objetivos: si su objetivo es recopilar información sobre valores atípicos, cosas que podrían ser valores atípicos u observaciones a distancia, ¡no querrá tirarlos!

Hay muchas formas diferentes de lidiar con los valores atípicos. Eliminarlos del análisis es, con mucho, el más común, porque es el más simple. Pero también es el más abusado, lo que creo que has captado. Muchos métodos son robustos para los valores atípicos (incluido el grupo de técnicas con el nombre apropiado llamado regresión robusta). Desafortunadamente, muchos métodos comunes enseñados (incluido PCA) tienden a ser bastante sensibles a los valores atípicos.

Tenga en cuenta que los valores atípicos y las observaciones influyentes no son necesariamente lo mismo. Vea Valores atípicos y observaciones influyentes para estadísticas AP para una breve discusión que diferencia las observaciones influyentes y valores atípicos. Los “valores atípicos” no influyentes suelen ser un problema menor.

More Interesting

¿Se ha utilizado alguna vez el algoritmo Apriori para encontrar interacciones gen-gen en GWAS?

¿La curiosidad se transfiere genéticamente o es algo que desarrollas en el proceso de aprendizaje a lo largo del tiempo?

¿Pueden las personas normales rastrear su ascendencia como el programa '¿Quién crees que eres?'

¿Cómo se determinan los genes de vecindad / ubicación genómica de un marcador de microsatélites?

¿Por qué los africanos y los europeos son físicamente diferentes a los asiáticos? ¿Es eso debido a la variación genética o la variación de la dieta?

¿Qué le pasaría a una persona si corta el gen de la miostatina?

Cómo obtener una secuencia completa del genoma para mí o mi familia, para descubrir más sobre nuestra ascendencia

¿Tiene más genética en común con sus hermanos o con sus hijos?

¿Un gen dominante reprime o apaga el gen recesivo correspondiente con su producto? ¿O simplemente tiene un promotor más fuerte y produce más producto genético?

¿Cuáles son los conceptos erróneos más comunes sobre la genética y la herencia?

¿Pueden surgir nuevos genes de forma natural en el genoma humano? De ser así, ¿cómo y con qué frecuencia sucede esto?

¿Algunas personas son genéticamente narcisistas?

¿Hay algún país que participe activamente en la selección genética para acelerar el proceso evolutivo de sus ciudadanos y su inteligencia colectiva?

¿Las pruebas de mezcla de compañías de genómica personal como 23andMe y FamilyTreeDNA refutan la idea de "la raza es una construcción social"?

¿Por qué la mayoría de las personas rubias tienen ojos azules?