¿Por qué la secuenciación en pares es buena para regiones repetitivas de genomas?

Las técnicas de secuenciación de alto rendimiento funcionan generando grandes bibliotecas de fragmentos de ADN cortos (50-200 bases, generalmente) y determinando sus secuencias en paralelo. Para obtener una secuencia del genoma, debe volver a ensamblar todos estos fragmentos en piezas cada vez más grandes hasta que tenga piezas del tamaño de un cromosoma. La secuenciación de las regiones repetitivas reales no es un gran problema: el desafío surge cuando intentas ensamblarlas en el genoma. Cualquier lectura que se encuentre completamente dentro de la región repetitiva no le brinda información útil sobre cuánto tiempo es esa región repetitiva (aparte del hecho de que es más grande que la longitud de su lectura), y si hay varias copias de ese elemento dentro del genoma, usted también No sé dónde está.

Las regiones repetitivas se pueden colocar en el genoma mediante lecturas que contienen tanto parte de la región repetitiva en cuestión como la secuencia de flanqueo; esto le dice qué hay adyacente a la región repetitiva (al menos en un lado), pero sin saber qué hay en ambas lados, todavía puede enfrentar dificultades para colocar el elemento en el genoma. Si solo tiene dos copias de un elemento repetitivo, debe considerar cuatro secuencias de flanqueo. Si cada lectura solo le brinda información sobre un lado del elemento, no tiene forma de emparejar las secuencias de flanqueo apropiadas. Por lo tanto, las lecturas más útiles son aquellas que contienen todo el elemento repetitivo con secuencia de flanqueo en ambos extremos, ya que esto le dice con precisión qué flanquea el elemento en ambos lados. La mayoría de los elementos repetitivos son significativamente más largos que la longitud de lectura típica en un secuenciador de alto rendimiento, por lo que la secuenciación “vainilla” directa no va a generarlos.

Las lecturas de secuencia de extremos emparejados de ambos extremos de un fragmento de ADN, y es capaz de emparejar los extremos, para que sepa qué hay en los extremos de sus fragmentos, incluso si cada lectura individual no se superpone con su compañero. Esto le permite obtener secuencias de solo los extremos de piezas más grandes, lo que significa que cualquier pieza que contenga un elemento repetitivo completo puede proporcionarle un par de lecturas que identifican ambas secuencias de flanqueo.

Esto todavía no es suficiente información para saber cuánto dura el elemento, pero dado que conoce la secuencia de flanqueo, todo lo que necesita es usar eso para diseñar cebadores para PCR y determinar la longitud de esa manera.

Genética y HerenciaGenómicasecuenciación de ADN