Cómo determinar una secuencia de ADN es un gen o no

¿Cuál es el algoritmo que usarías, cómo funciona mejor que otros, por qué este algoritmo en particular? Desea poder justificar su elección.

La definición de gen para el propósito de esta actividad puede ser tan simple como cualquier serie de letras de ADN encerradas entre dos puntos de referencia: un codón de inicio y de detención. La captura es, cuando se trata de predicciones de genes, uno no puede decir qué filamento alberga un gen para que su programa pueda escanear los hilos hacia adelante y hacia atrás en busca de estos puntos de referencia. Otro inconveniente es con los marcos de lectura, un gen puede estar “oculto” en cualquiera de los seis marcos de lectura: tres hacia adelante y tres hacia atrás. Por lo tanto, su programa debe poder escanear de manera gradual, comenzando con la primera base y escaneando en ambas direcciones, luego la segunda y luego la tercera. Una tercera captura es, cuál es la longitud de la secuencia que es aceptable para su inclusión en la lista de predicciones. A veces, las marcas de tierra están demasiado cerca entre sí, por lo que desea encontrar la longitud del gen más corto en su especie o una relacionada, por ejemplo, en E. coli, el gen más corto tiene alrededor de 45 bases de largo; que codifica una proteína de 15 aminoácidos.

Para confirmar aún más sus hallazgos, utilice comparaciones. Envíe su secuencia prevista a una base de datos genética y vea si devuelve coincidencias legítimas. Busque en las áreas aguas arriba de su gen los sitios de unión a los ribosomas, pero supongo que dado que este es un proyecto escolar, tal búsqueda podría ser demasiado avanzada.

Nota: restringí la definición de un gen a las partes del genoma que codifican proteínas, sin embargo, advierto que esta es una definición parcial con el fin de responder a su pregunta, pero tenemos genes codificadores no proteicos (llamados ARN no codificantes) también. Estos no tienen los puntos de referencia clásicos que permiten su fácil identificación, pueden predecirse al tratar de usar modelos de secuencia / estructura de ARN no codificantes conocidos y juegan un papel importante en la fisiología y la vida de las células.