¿Cuáles son los diferentes factores que afectan la profundidad de cobertura en la secuenciación profunda de un genoma?

La cobertura es solo un término elegante para el número de lecturas en una posición determinada. Realmente depende de dos factores. El primero es el número de lecturas que produce una ejecución de secuencia . Imagine una carrera que genera una lectura para una región específica. Como solo hay una lectura, la cobertura máxima para esa región solo puede ser una. Alternativamente, si se generan 100 lecturas, teóricamente la cobertura podría ser 100. Por supuesto, en realidad muchas lecturas no se asignan a la región de donde vinieron. El mapeo y la alineación de las lecturas al genoma de referencia es el segundo factor para determinar la cobertura. En el ejemplo anterior donde tenemos 100 lecturas para una región, quizás solo 50 de esos límites de calidad de mapeo / alineación de pasadas. Por lo tanto, la cobertura en esa región sería de 50 aunque se produjeran 100 lecturas durante la secuenciación. Las lecturas pueden no mapearse o alinearse de nuevo a la región desde donde fueron producidas por varias razones, 1) los errores de secuenciación pueden evitar que las lecturas se mapeen / alineen con precisión a la referencia, 2) las mutaciones en el genoma que se está secuenciando pueden producir lecturas que no se pueden mapear con precisión / alinearse con la referencia y 3) hay regiones del genoma donde las lecturas no pueden mapearse / alinearse de forma única debido a repeticiones de baja complejidad o conservación (múltiples lugares en el genoma comparten la misma secuencia).

Estos son los conceptos centrales. Estoy ansioso por leer lo que otros tienen que decir.