¿Cómo cuentan los biólogos los genes o las proteínas codificadas?

La transcripción es el proceso por el cual un organismo produce ARN a partir de una plantilla de ADN. Las ADN polimerasas son las enzimas responsables de la transcripción, y estas enzimas se unen a ciertas estructuras o secuencias que comienzan la transcripción. En la mayoría de los animales, este es el codón ATG, que es equivalente al codón AUG después de la transcripción. Esto se conoce como un “codón de inicio”. Del mismo modo, los “codones de parada” señalan el final de la transcripción en eucariotas.

El área entre estos codones de inicio y parada se denomina “marco de lectura abierto”. Cada marco de lectura abierto es un gen potencial predicho. Al contar el número de marcos de lectura abiertos, o ORF, se puede predecir cuántos genes tiene un organismo y cuántas proteínas hipotéticas produciría.

Nota: los procariotas usan una estructura llamada “bucle sigma” para detener la transcripción en lugar de un codón de detención. El bucle sigma se forma cuando la cadena sencilla de ADN a la que se une la polimerasa se pliega sobre sí misma debido a los ácidos nucleicos complementarios, formando prácticamente un segmento corto de doble cadena a partir de su cadena única. El bucle sigma saca la polimerasa de la cadena de ADN.

Nota 2: los virus son mucho más difíciles cuando se buscan genes predichos. Han desarrollado todo tipo de técnicas para hacer que las polimerasas detengan la transcripción tempranamente, las polimerasas omiten porciones de genes durante la transcripción y producen genes a partir de ORF superpuestos.

El científico no necesita adivinar. Uno solo necesita separar el ARN y obtener las secuencias de todos los genes. Puede secuenciar el genoma y mapear los ARN para encontrar las ubicaciones de los genes dentro del genoma.

También hay métodos basados ​​en la teoría de la información que pueden usarse para predecir las ubicaciones de los genes con cierta precisión (que era popular antes de que se desarrollaran los métodos modernos de alto rendimiento).

Con las proteínas, es un poco más complicado porque después de que se traducen los ARNm, algunas proteínas pueden modificarse a pesar de la modificación postraduccional.

Si existe alguna ambigüedad con respecto a un gen, puede ser que algo se parezca a un gen, pero es posible que no hayan encontrado un producto genético para él o que no entiendan la función del producto.

Muchos organismos han sido completamente secuenciados y todos sus genes registrados en bases de datos como Ensembl o NCBI. Las bases de datos tienen genomas completos, todas las variantes conocidas de los genes, todas las proteínas, polimorfismos de un solo nucleótido, índices de literatura científica relacionada, indexación cruzada de especies (es decir, para que pueda encontrar el homólogo de ratón del gen humano), conexiones a enfermedades, etc.