Genética molecular: ¿existen diferencias de secuencia fundamentales entre el ADN que codifica proteínas y el ADN que codifica ncRNA?

Una respuesta integral a esta pregunta no solo sería exhaustivamente aburrida sino también especulativa, ya que la definición de “ncRNAs” se ha definido hasta ahora como cualquier ARN no considerado ARNm. De hecho, una mejor pregunta puede ser: “¿Podemos definir ncRNAs como separados de mRNAs por diferencias transcripcionales y / o traduccionales, solos?” La respuesta parece ser no.

Hay algunas “reglas” que ciertamente pueden ayudar a identificar el ncRNA a través de la información de la secuencia o al identificar procesos postranscripcionales específicos (por ejemplo, RNase P, ¡un ncRNA en sí mismo!) Que induce la escisión de las secuencias líderes de tRNA, así como la escisión de Drosha / Dicer de, y asociación RISC con miRNAs y siRNAs, etc.). Sin embargo, como con la mayoría de las cosas en biología, estas familias de moléculas, a veces definidas arbitrariamente, no son un tamaño único. Mi amplio descargo de responsabilidad establecido, hay varias cosas que son indicaciones probables de la identidad de un ARN como “no codificante” (además del hecho obvio de que no hay una proteína conocida que su secuencia pueda explicar):

  1. Secuencia de marco de lectura abierto (ORF). Tanto la longitud como el código de estas secuencias son indicadores significativos. Dado que la gran mayoría de las proteínas se encuentran en los dígitos triples de los aminoácidos, se puede suponer que es probable que la mayoría de los ARN con menos de 300nt no sean codificantes. Además, al comparar la secuencia del genoma transcrita con las bases de datos actuales de proteínas conocidas, se puede inferir razonablemente a partir de una secuencia homóloga estrechamente coincidente con una proteína conocida que probablemente se procesa como ARNm.
    • Limitaciones: el supuesto de longitud falla con las hormonas peptídicas más pequeñas, proteínas proteolíticamente activadas, más pequeñas, etc., y es principalmente efectivo solo con ncRNA largos (lncRNA), mientras que el supuesto de secuencia falla cuando se considera que mutaciones relativamente pequeñas pueden haber producido una homología de otra manera estrechamente homóloga la secuencia de codificación es un artefacto de la secuencia que codifica la proteína funcional relacionada.
  2. ARN que lleva una secuencia computacionalmente probable que asuma una estructura funcional secundaria en los ncRNA (por ejemplo, los diversos bucles y la raíz aceptora de los tRNA).
    • Limitación: las regiones no traducidas (3 ‘UTR) de ARNm pueden tener propiedades similares (además, se ha encontrado que muchos intrones de ARNm tienen propiedades funcionales como ncRNAs, después de la escisión de la transcripción de ARNm).
  3. Secuencias que anteriormente se consideraban ADN “basura”; áreas de un genoma que anteriormente se consideraban innecesarias, particularmente en segmentos de estructura constitutiva de heterocromatina.
    • Limitación: aunque no somos tan ingenuos como solíamos afirmar que esta increíble proporción del genoma es “basura”, todavía no sabemos qué tiene función o de qué manera, y ciertamente es posible que dicha función nos llevaría a clasificar una transcripción de ARN de tales regiones como algo distinto de ncRNA.

Lo que realmente plantea toda esta pregunta es el hecho de que algunas transcripciones de ARNm, si no se procesan o exportan completamente a la maquinaria de traducción, pueden tener funciones reguladoras epigenéticas. Tal papel llevaría a uno a referirse a ellos como ncRNAs, pero son concomitantemente capaces de traducirse en una proteína útil. Por lo tanto, antes de intentar encontrar distinciones definitivas entre los dos tipos, recuérdese que esas definiciones de trabajo son, en sí mismas, insuficientes e incompletas en sus supuestos.

Ciertamente, la cola polyA es irrelevante ya que se agrega después de la transcripción