¿Por qué la secuenciación en pares es buena para regiones repetitivas de genomas?

Las técnicas de secuenciación de alto rendimiento funcionan generando grandes bibliotecas de fragmentos de ADN cortos (50-200 bases, generalmente) y determinando sus secuencias en paralelo. Para obtener una secuencia del genoma, debe volver a ensamblar todos estos fragmentos en piezas cada vez más grandes hasta que tenga piezas del tamaño de un cromosoma. La secuenciación de las regiones repetitivas reales no es un gran problema: el desafío surge cuando intentas ensamblarlas en el genoma. Cualquier lectura que se encuentre completamente dentro de la región repetitiva no le brinda información útil sobre cuánto tiempo es esa región repetitiva (aparte del hecho de que es más grande que la longitud de su lectura), y si hay varias copias de ese elemento dentro del genoma, usted también No sé dónde está.

Las regiones repetitivas se pueden colocar en el genoma mediante lecturas que contienen tanto parte de la región repetitiva en cuestión como la secuencia de flanqueo; esto le dice qué hay adyacente a la región repetitiva (al menos en un lado), pero sin saber qué hay en ambas lados, todavía puede enfrentar dificultades para colocar el elemento en el genoma. Si solo tiene dos copias de un elemento repetitivo, debe considerar cuatro secuencias de flanqueo. Si cada lectura solo le brinda información sobre un lado del elemento, no tiene forma de emparejar las secuencias de flanqueo apropiadas. Por lo tanto, las lecturas más útiles son aquellas que contienen todo el elemento repetitivo con secuencia de flanqueo en ambos extremos, ya que esto le dice con precisión qué flanquea el elemento en ambos lados. La mayoría de los elementos repetitivos son significativamente más largos que la longitud de lectura típica en un secuenciador de alto rendimiento, por lo que la secuenciación “vainilla” directa no va a generarlos.

Las lecturas de secuencia de extremos emparejados de ambos extremos de un fragmento de ADN, y es capaz de emparejar los extremos, para que sepa qué hay en los extremos de sus fragmentos, incluso si cada lectura individual no se superpone con su compañero. Esto le permite obtener secuencias de solo los extremos de piezas más grandes, lo que significa que cualquier pieza que contenga un elemento repetitivo completo puede proporcionarle un par de lecturas que identifican ambas secuencias de flanqueo.

Esto todavía no es suficiente información para saber cuánto dura el elemento, pero dado que conoce la secuencia de flanqueo, todo lo que necesita es usar eso para diseñar cebadores para PCR y determinar la longitud de esa manera.

La mejor manera de responder esta pregunta es con un ejemplo muy simple.

Escenario 1: Lectura única
Secuencia: ATATATATGGGTTTGG
Leer: ATAT

Alineación: ATATATATGGGTTTGG
ATAT
(o) ATAT
(o) ATAT

¡La lectura no se puede alinear únicamente porque no hay suficiente información sobre de dónde vino!
——————————————————
Escenario 2: lectura de final emparejado
Secuencia: ATATATATGGGTTTGG
Leer: ATAT
Lectura emparejada: TTGG
Distancia entre lecturas: 4 pb
* La secuencia de final emparejado TAMBIÉN te da la distancia entre lecturas emparejadas. Este es el concepto crítico.

Ahora alinee la lectura única primero.
Alineación: ATATATATGGGTTTGG
TTGG
Como sabemos que la otra lectura está a 4 pb de distancia, ahora es posible alinearla correctamente.
Alineación: ATATATATGGGTTTGG
ATAT TTGG

La secuencia de extremo emparejado brinda información adicional (distancia entre las lecturas emparejadas) que mejora la alineación siempre que una lectura se asigne de manera única.

** para regiones repetitivas muy largas, ambas lecturas pueden caer dentro de la secuencia repetitiva y luego se enfrenta al mismo problema que en el escenario 1 a pesar de tener la información de distancia.

** hizo algunas simplificaciones excesivas, pero esto debería ilustrar el concepto bastante bien

Como se indica en [1], cuando se usan lecturas de extremo emparejado, “un ensamblador usa tanto la distancia esperada como la orientación de las lecturas al reconstruir un genoma”.

La distancia esperada puede, por ejemplo, inferir cuántos contigs repetidos están presentes entre dos contigs no repetidos.

La orientación de las lecturas puede resolver redundancias que pueden ser causadas por regiones repetidas.

Ejemplo

Dados los siguientes contigs:

ARKANSAS
R – B
C – R
R – D
A ——- B
DISCOS COMPACTOS

Podemos inferir que R está entre A y B, y C y D, dada la distancia y orientación entre A y B, C y D, y los contigs que tienen R (la región repetida).

[1] ADN repetitivo y secuenciación de próxima generación: desafíos y soluciones computacionales

Aquí hay algunas discusiones bastante buenas sobre cómo la secuenciación de pares puede ser útil:

http://seqanswers.com/forums/sho

http://www.cureffi.org/2012/12/1

La mayoría de las técnicas de secuenciación (¿todas?) Tienen problemas con las secuencias repetitivas. Si la secuencia de ADN que está leyendo es corta, las lecturas de pares pueden proporcionarle redundancia adicional. Probablemente lo más importante es que las lecturas emparejadas pueden alinearse mejor con elementos genómicos repetitivos.

Supongamos que tiene un fragmento de ADN de 500 pb de largo que en su mayoría es repeticiones cortas, excepto por un pequeño elemento de 25 pb en el extremo 3 ‘. Si su lectura de 5 ‘se alinea con el bloque repetitivo, y si no tiene cobertura de secuencia de esta lectura en la parte no repetitiva, no podrá alinearlo por sí solo. Si tiene un extremo emparejado que se alinea con el bloque 3 ‘, puede inferir más sobre el mapeo de la lectura 5’.