¿Por qué las moléculas de ARN más grandes tienen que fragmentarse en piezas más pequeñas (200-500 pb) para ser compatibles con la mayoría de las tecnologías de secuenciación profunda?

Las moléculas de ARN están fragmentadas para que pueda ligar moléculas adaptadoras a los extremos de estos fragmentos más pequeños para secuenciar los extremos de estos fragmentos. Esto se hace para que pueda esperar muestrear lecturas a través de una transcripción de ARN completo en lugar de solo los extremos 5 ‘y 3’ de ese ARN particular (/ para que pueda usar la tecnología NGS).

En NGS estás agarrando TONELADAS de fragmentos muy pequeños para alinearlos nuevamente con el transcriptoma. Desea obtener tanta información como sea posible (lecturas emparejadas desde los extremos de un fragmento, con cada lectura siempre que sea técnicamente factible y rentable). Si solo secuenciara los extremos de las transcripciones maduras, no tendría mucha información para trabajar con respecto a: 1) qué transcripciones están en su biblioteca (¿isoformas? ¿ARNm de fusión extraña? ¿ARN no codificante?) 2) cuantificar la expresión relativa o realizar diferencial análisis de expresión entre diferentes muestras

El tamaño total del fragmento también es importante para cargar en la celda de flujo. Los fragmentos más pequeños se unirán preferentemente, por lo que desea que su población total de ADNc en su biblioteca contenga [lecturas que sean lo suficientemente grandes como para producir etiquetas de secuencia útiles -> lecturas que sean lo suficientemente pequeñas como para agruparse correctamente] (al menos para las máquinas de illumina)

Puede encontrar una pequeña descripción general aquí:
Construcción de bibliotecas para secuenciación de próxima generación: resúmenes y desafíos

Por ejemplo, cuando se usa la tecnología Illumina, el tamaño óptimo del inserto se ve afectado por el proceso de generación de clúster en el que las bibliotecas se desnaturalizan, diluyen y distribuyen en la superficie bidimensional de la celda de flujo y luego se amplifican. Mientras que los productos más cortos se amplifican de manera más eficiente que los productos más largos, los insertos de bibliotecas más largos generan grupos más grandes y difusos que los insertos cortos. Hemos secuenciado con éxito las bibliotecas con instrumentos Illumina de hasta 1500 bases de longitud ”

Si bien está implícito en la excelente respuesta de Abigail, especialmente el bit citado de Biotechniques, creo que vale la pena señalar que el tamaño uniforme de los fragmentos es muy deseable para la secuenciación profunda, ya sea ARN o ADN, porque, como se menciona en la cita, los fragmentos más cortos se amplifican más eficientemente Esto también se aplica a cualquier paso de PCR en la preparación de su biblioteca, por lo que, a menos que esté haciendo un protocolo sin amplificación, los fragmentos más pequeños en su biblioteca probablemente estarán sobrerrepresentados en los resultados de la secuencia. Esto afectará cualquier intento de cuantificar sus resultados y puede conducir a una cobertura sesgada si solo está haciendo una secuenciación completa del genoma o algo así.