Cómo diferenciar la codificación de proteínas de los genes que no codifican

La predicción de genes, particularmente en eucariotas, es un tema desafiante. La tarea varía de casi trivial a muy difícil.

La respuesta obvia en los procariotas es que un gen comienza con un codón de inicio y termina con un codón de parada, que continúa como una serie de codones intermedios. Una declaración que entierra mucha complejidad en ella.

Si consideramos AUG como un codón de inicio y UAA, UAG y UGA como codones de parada, se producirán marcos de lectura de apertura cortos por casualidad a alguna frecuencia, dependiendo de la composición de nucleótidos del organismo. Incluso marcos de lectura relativamente largos pueden ocurrir al azar, particularmente en organismos con bajo contenido de A + T. Además, si los complementos inversos de los codones de parada son codones raros, entonces el complemento inverso de un marco de lectura abierto también puede ser un marco de lectura abierto. Algunos han argumentado que realmente se traducen, pero esa es una opinión minoritaria.

Pero muchos procariotas también usan otros codones de inicio, particularmente TTG y GTG y CTG, pero otros son posibles. En varios casos, los codones de parada se “suprimen” con selenocisteína o pirrolisina, por lo que llamar a un marco de lectura abierto como inicio a parada en estos casos no podrá llamar correctamente al gen. Los códigos genéticos alternativos están más extendidos de lo que se pensaba, por lo que en los datos metagenómicos simplemente asumir que un código canónico puede ser un error. Ahora se han identificado bacterias que parecen no tener codones de parada dedicados, siempre confiando en la supresión específica del contexto. Si bien el deslizamiento ribosómico generalizado no se ha encontrado en proksroyites, hay casos en los que el ribosoma se mueve en incrementos distintos de tres, como un caso en un fago T donde se crea una proporción de proteínas de pico corto y largo por deslizamiento.

Un caso particularmente extraño es en el sistema procariota favorito de cada humsn, del que dependemos de por vida. Las mitocondrias tienen una variante en el código genético que usa AGA y AGG como codones de parada, pero UGA para triptófano. Nuestras mitocondrias también tienen ARNm de naturaleza de poliadenilato, como un eucariota, y en al menos un caso el codón de detención UAA no está codificado en el transcripto primario: la escisión de ARNm ocurre después de la U y las dos ¡Como son el comienzo si la cola poli-A!

Así que detengámonos y revisemos el desafío de predicción del gen que codifica la proteína procariota. Muchos posibles codones de inicio. Suprimido los codones de parada, deslizamiento del ribosoma. Probables ORF falsos por sesgos de nucleótidos. Y ORF cortos en todas partes debido a estadísticas simples, cualquier persona que diga “” solo AUG para detenerse “no ha hecho mucha predicción de genes bacterianos.

Afortunadamente, hay varias señales que pueden aumentar en gran medida la predicción de genes. Dada una gran muestra del genoma de un organismo o pariente cercano, se pueden inferir patrones de nucleótidos alrededor de los comienzos verdaderos, los sitios de unión al ribosoma. Los patrones de uso de codones pueden ayudar a distinguir los ORF verdaderos que codifican proteínas de los ORF probables, aunque la señal a ruido puede ser muy débil en los ORF cortos. Los genes que se han sometido a una transferencia horizontal reciente pueden seguir un uso de codones muy diferente. La similitud de proteínas, particularmente a través de grandes distancias taxonómicas, puede resolver gran parte de la ambigüedad e identificar codones de parada suprimidos. Aún así, quedan casos difíciles: ¿los ORF cortos son reales o ruidosos? LongORFs que no muestran conservación excepto dentro de taxones cercanos: ¿llamadas falsas o nuevos genes?

Los eucariotas simplemente arrojan la pesadilla de los intrones a la mezcla. ¡Algunos exones tienen una única base de tamaño, por lo que son difíciles de detectar por sí mismos en secuencia genómica! La edición de AR de C a U puede crear codones de parada, un camión utilizado en nuestra fisiología para generar dos formas de apolipoproteína B a partir del mismo mensaje, ¡que difieren en 52 kilodaltons de tamaño! En algunos cilistes, la edición desenfrenada de ARN de algunos mensajes inserta tanta información que los hace esencialmente irreconocibles en el genoma; La información del ARNm se divide de manera efectiva en múltiples sitios del genoma.

Entonces, la predicción del gen de codificación es una pesadilla en general, ¿qué pasa con la no codificación?

La predicción de genes no codificantes es un conjunto de casos específicos. Los ARN ribosómicos y algunos otros ARN estructurales pueden detectarse por conservación simple. Se puede encontrar tRNA y snoRNA buscando secuencias que se plieguen en la estructura apropiada. Los modelos pueden ser entrenados para buscar micro-ARN de abeto.

¿Pero algo más? Es un salvaje oeste. Esta es una razón por la que no hay resolución del argumento sobre el ADN basura en nuestro genoma. Vemos mucha transcripción que no tiene marcos de lectura conservados. ¿Es este ruido transcripcional simplemente tolerable? ¿ARN funcionales reales, como XIST y TSIX que regulan la inactivación de X?

En general, los genes que codifican proteínas tendrán secuencias específicas al principio y al final. Estos ORF de ‘marcos de lectura abiertos’ se pueden analizar para detectar una secuencia de proteínas y posibles intrones.