Si decide incluir valores atípicos o no, dependerá de los objetivos de su experimento.
Sin entrar en demasiada teoría, un problema común con la inclusión de valores atípicos (en cualquier análisis, no solo genética), es que sus modelos tenderán a estar fuertemente influenciados por esas observaciones. Por ejemplo, los valores atípicos a menudo formarán sus propios grupos en el análisis de grupos, y la mayor parte de la población se diferenciará de manera extraña. En el caso de PCA, los componentes principales a menudo harán un buen trabajo al diferenciar los valores atípicos, pero a expensas de diferenciar grupos más interesantes.
Sin embargo, esto vuelve a sus objetivos: si su objetivo es recopilar información sobre valores atípicos, cosas que podrían ser valores atípicos u observaciones a distancia, ¡no querrá tirarlos!
- ¿Qué significa el * al final del haplogrupo paterno E1b1b1a2 y cuáles son algunos datos sobre este haplogrupo?
- ¿Hay alguna manera de calcular la probabilidad de que ciertas mutaciones en un genoma estén vinculadas / ocurran juntas? Digamos, ¿quizás por múltiples secuencias profundas de diferentes aislados clínicos del mismo virus?
- ¿Por qué la variación es una necesidad para la evolución orgánica?
- ¿Qué se entiende cuando se dice que una mutación particular tiene un "efecto polar"?
- ¿Por qué los lobos tienen ojos azules?
Hay muchas formas diferentes de lidiar con los valores atípicos. Eliminarlos del análisis es, con mucho, el más común, porque es el más simple. Pero también es el más abusado, lo que creo que has captado. Muchos métodos son robustos para los valores atípicos (incluido el grupo de técnicas con el nombre apropiado llamado regresión robusta). Desafortunadamente, muchos métodos comunes enseñados (incluido PCA) tienden a ser bastante sensibles a los valores atípicos.
Tenga en cuenta que los valores atípicos y las observaciones influyentes no son necesariamente lo mismo. Vea Valores atípicos y observaciones influyentes para estadísticas AP para una breve discusión que diferencia las observaciones influyentes y valores atípicos. Los “valores atípicos” no influyentes suelen ser un problema menor.