¿Cuáles son los pasos básicos en el ensamblaje del genoma?

El primer paso para obtener una secuencia del genoma es aislar el ADN genómico de la especie o incluso del individuo que le interesa. Los genomas tienden a ser del orden de cientos de millones o incluso miles de millones de pares de bases, mientras que las mejores tecnologías de secuenciación disponible (voy a usar la secuencia de Solexa como ejemplo a lo largo de mi respuesta porque es la tecnología con la que estoy más familiarizado, pero obviamente hay otras) solo son capaces de generar secuencias del orden de cientos a miles de pares de bases largo. Por lo tanto, generar una secuencia completa del genoma intacto requiere el proceso de ensamblaje del genoma, donde los millones o incluso miles de millones de lecturas cortas que ha recopilado se unen en piezas más largas que finalmente se acercan a un genoma intacto.

El método general utilizado considera una lectura a la vez e intenta encontrar otras lecturas en el conjunto de datos que compartan una similitud sustancial con él. Al identificar superposiciones entre lecturas, puede construir progresivamente secuencias más largas y, en última instancia, obtener un genoma completamente ensamblado. La alineación es un problema computacionalmente desafiante pero no imposible (se maneja eficientemente usando la indexación FM y la Transformación Burrows-Wheeler, ninguno de los cuales entiendo lo suficiente como para explicar más allá del hecho de que sirven para reducir drásticamente el espacio que tiene que buscar de manera inteligente indexación), y con datos “perfectos” dará como resultado un ensamblaje completo.

Desafortunadamente, los datos de secuencia recopilados, ni el genoma que se ensambla, nunca son perfectos. Hay dos problemas sustanciales que representan la mayor parte de los desafíos que el ensamblaje del genoma tiene que superar: la secuenciación de la próxima generación es propensa a errores y los genomas están llenos de secuencias repetitivas.

Las secuencias repetitivas son un gran desafío porque las lecturas asociadas con el no pueden asignarse a una sola ubicación en el genoma. Cada copia de un elemento repetitivo está flanqueada en cada lado por una secuencia única. Si tiene dos copias de un elemento repetitivo en el genoma, obviamente tiene dos conjuntos de secuencias únicas; para este ejemplo, llamemos a nuestros dos loci repetitivos ARB y CRD, donde R es la repetición y las otras letras son secuencias únicas. Si R es más largo que su longitud de lectura típica, obtendrá lecturas que abarcan las uniones AR, RB, CR y RD, pero nunca nada que abarque toda la región, por lo que no tendría forma de saber si ARB: CRD o ARD: CRB es el ensamblaje correcto. (¡Imagínese lo desordenado que esto se pone para los elementos repetitivos que están presentes en números de copias de cientos a miles cada uno!)

Por lo general, esto se maneja experimentalmente generando fragmentos largos y secuenciandolos usando un método de extremo emparejado. Este método es capaz de secuenciar una molécula dos veces, una desde cada extremo. Las lecturas solo cubren 50-100 nucleótidos de cada extremo, pero saber que provienen de la misma molécula larga es lo suficientemente bueno. Si estas lecturas de final emparejado son más largas que sus repeticiones, puede recuperar lecturas que son ARB y CRD y ensamblar sin ambigüedades en esas regiones. Sin embargo, estas lecturas largas se encuentran con el otro problema que mencioné antes: errores de secuencia. Por lo general, cuanto más largas son las lecturas que una tecnología es capaz de producir, mayor es la tasa de error, lo que requiere más profundidad de secuencia y un mayor costo.

Una vez que haya ensamblado un genoma hasta donde sea posible con herramientas computacionales (como SOAPdenovo, por ejemplo), eliminar las brechas restantes es una cuestión de realizar una PCR para secuenciar directamente las regiones adyacentes a cada una de sus brechas y, con suerte, unirlas .