¿Cómo se puede determinar bioinformáticamente el número de copias para un gen en particular en una secuencia del genoma conocida?

Esta es una muy buena pregunta, pero me temo que no tengo el conocimiento suficiente en esta área para dar una respuesta muy técnica. Sin embargo, sospecho que en esta era de tecnologías de secuenciación masivamente paralelas y cuantitativas , los enfoques computacionales para predecir el número de copias en una escala genómica a partir de la entrada de NGS probablemente usen algunas herramientas específicas que han sido desarrolladas por algunos laboratorios en los últimos diez años o entonces. No conozco los algoritmos subyacentes utilizados para normalizar los recuentos de lectura y las secuencias de mapas, pero supongo que se modifican y actualizan continuamente para acomodar nuevas tecnologías y tipos de datos.

El siguiente artículo confirma más o menos mi especulación desde arriba:

Zhao, M., Wang, Q., Wang, Q., Jia, P. y Zhao, Z. (2013). Herramientas computacionales para la detección de variación de número de copia (CNV) utilizando datos de secuenciación de próxima generación: características y perspectivas. BMC Bioinformática , 14 (Supl 11), S1.

PS El número de copias de un gen de interés (incluidos los genes variables intratables como los duplicados en tándem en los loci de rRNA, así como los genes mitocondriales multicopia) puede interrogarse de varias maneras experimentalmente en el laboratorio (especialmente por PCR cuantitativa ) , pero eso no es lo que pediste.

Depende del tipo de datos que ya tenga en la mano. Lo mejor es tener una secuenciación completa del genoma (WGS).

Incluso con la secuenciación del genoma completo “superficial” (sWGS) con una cobertura de ~ 0.05X (es decir, 3 millones de lecturas), podemos detectar amplificaciones a gran escala de aproximadamente 50 kb.

Para la secuenciación completa del exoma (WES) es un poco complicado ya que estamos usando cebo para enriquecer los fragmentos objetivo, por lo tanto, puede haber sesgo entre diferentes cebos en la misma reacción. Pero escuché que es factible.

Si tiene una matriz de ADN como en el pasado no hace mucho tiempo, bueno, ese es exactamente el tipo de técnica que las personas usan para detectar la amplificación del número de copias.

Realice una búsqueda de alineación de la secuencia del genoma con la secuencia del gen y establezca umbrales para qué tan cerca desea que esté la coincidencia para que se considere una copia.