¿Cómo pueden los científicos saber dónde termina un gen y comienza otro?

Esta pregunta es un problema bastante difícil, y existen varias soluciones diferentes. Tiene una página de wikipedia: predicción de genes. Pero como esta es una pregunta de Quora, haré todo lo posible para explicar algunos de los métodos más populares. Pero primero, algo de biología.

Biología Para saber cómo encontrar un gen, necesitamos saber cómo se ve. Y para saber cómo se ve, necesitamos saber cómo los encuentra la célula. Esta es una pregunta seria: en una molécula de más de 3 mil millones de bases de largo, ¿cómo podría el sistema de transcripción posiblemente reconocer una secuencia de codificación? Incluso si todos son fácilmente reconocibles al comenzar todos con la misma secuencia (que no lo son), atravesar todo el genoma buscando esas secuencias hasta que encuentre esos genes que necesitan transcribirse es demasiado trabajo para una proteína.

En cambio, los genes se encuentran con la ayuda de factores de transcripción. Estas son proteínas que se unen a ciertas secuencias genéticas en el ADN. También se unen a la polimerasa y, al hacerlo, ayudan a iniciar el proceso de transcripción. Las secuencias unidas por los factores de transcripción se denominan regiones promotoras , y se encuentran hasta unos cientos de bases antes que los genes en el ADN ( corriente arriba ). Ahora, podríamos buscar estas regiones promotoras, pero no es tan fácil. Hay muchos tipos diferentes de factores de transcripción y promotores correspondientes. Además, la unión entre el factor de transcripción y el ADN no es muy específica, por lo que un factor puede unir muchas secuencias similares . Esto los hace difíciles de encontrar si solo estás mirando la secuencia. En eucariotas, la situación es aún más compleja, principalmente porque la mayoría de los genes no están realmente presentes en la secuencia de una pieza: partes del gen se transcriben ( exones ), mientras que otras se cortan y eliminan de la transcripción antes de traducirla en proteínas ( intrones ). De hecho, qué intrones se eliminan no siempre es lo mismo, por lo que un gen puede traducirse en varias proteínas diferentes, pero eso no nos concierne en este momento.

En respuesta a las otras respuestas, quiero aclarar algo: el codón de inicio no juega ningún papel en la búsqueda de secuencias de genes . Si bien cada gen comienza con un codón de inicio de tres pares de bases (ATG en eucariotas; otros dos se usan en procariotas), esto no es lo que define el gen. De hecho, ATG también se usa como un codón dentro del gen, y ocurre fuera de las regiones de codificación. Mucho. Considere que el ADN se puede leer de 6 maneras diferentes ( marcos de lectura ): dos direcciones diferentes y tres posiciones de inicio diferentes (debido al código de tres bases utilizado). Debido a que una secuencia tan corta está destinada a ocurrir con demasiada frecuencia, el codón de inicio es de muy poca ayuda para encontrar genes, ni para los mecanismos biomoleculares en nuestras células, ni para nuestros científicos humanos.

Ahora, con la biología fuera del camino, ¿cómo encontramos los promotores y los genes en un genoma? Al igual que con muchas cosas en las ciencias de la vida, hay dos enfoques generales: uno se basa en la manipulación de reacciones enzimáticas en el laboratorio (“laboratorio húmedo”), el otro se basa en determinar y examinar la secuencia genética (” in silico ” o “bioinformática “). No puedo pasar por todas las opciones (no sé todas las opciones), pero daré un ejemplo de ambas clases.

Laboratorio húmedo Un método popular para descubrir cómo las proteínas interactúan con el ADN, es ChIP-seq (InmunoPrecipitación de cromatina – Secuenciación). En esta técnica, el ADN se extrae del núcleo de tal manera que las proteínas que se unen a él permanecen intactas. Esas proteínas se unen fuertemente al ADN. A continuación, se usan enzimas de restricción para cortar el ADN; sin embargo, las piezas donde se une la proteína están protegidas y, por lo tanto, permanecen intactas. Las piezas sueltas se eliminan y las proteínas no se unen. Cuando se secuencia el ADN restante, conocemos la secuencia precisa de los lugares en el ADN que interactúan con las proteínas, muchas de las cuales son regiones promotoras de genes.

Bioinformática El otro enfoque es no hacer nada en el laboratorio, y simplemente secuenciar todo el genoma. Si tiene suficiente conocimiento sobre cómo se ven los genes en general, debería ser capaz de construir un algoritmo que encuentre genes para usted, incluso si el genoma tiene una longitud de 3.200 millones de bases. Sin embargo, es muy difícil (o imposible) definir con precisión qué características definen un gen. Hay muchos factores de transcripción diferentes que se unen a secuencias que son más o menos similares a algún patrón que reconocen. ¿Cómo se ve ese patrón? ¿Qué tan similar debe ser la secuencia para unir el factor de transcripción? Algunos patrones son más estrictos que otros, y algunos tienen una influencia más fuerte en la activación de un gen que otros. Es imposible establecer umbrales exactos, y es imposible codificar todo esto a mano. En cambio, los bioinformáticos utilizan una variedad de métodos que pueden ser “entrenados” utilizando secuencias genéticas conocidas para saber cómo se ve un gen. Luego puede usar ese conocimiento para reconocer otros genes. Ejemplos de tales algoritmos basados ​​en redes neuronales y modelos ocultos de Markov.

Un ejemplo que viene a la mente es GENSCAN, un tipo de modelo de Markov oculto generalizado. Es viejo, pero bien conocido y un buen ejemplo. En este modelo, el genoma es esencialmente una progresión de “estados” (diferentes tipos de intrón, exón, promotor, etc.). Cada estado tiene sus propias características definitorias, y solo puede ser precedido y seguido por ciertos otros estados (por ejemplo, es probable que un promotor tenga al menos una de las secuencias conocidas que unen factores de transcripción, siempre va precedido por ADN no codificante y seguido por un gen). Después de alimentar a GENSCAN con un conjunto de datos que le enseña cómo se ve cada estado, puede usar esa información para encontrar la progresión del estado más probable y, con ella, la ubicación de los genes en otro genoma. Posteriormente, los genes predichos pueden verificarse mediante métodos de laboratorio húmedo.

Representación esquemática de los estados utilizados en GENSCAN. Las flechas indican posibles progresiones entre estados.

Imagen de Stein, anotación del genoma: de la secuencia a la biología. Nature Reviews Genetics 2, 493-503 (julio de 2001) (figura fuera del muro de pago).

Los genes tienen puntos de inicio y fin definidos por un par de rasgos. Los genes generalmente comienzan y terminan con codones de “inicio” y “parada”, que son bastante universales. Sin embargo, ¿cómo sabe que ha encontrado un codón de inicio real, y no solo una secuencia incidental de “ATG” (ATG en ADN, AUG en ARNm) que podría ser una secuencia intergénica o estar formada por bits de otros dos codones? Una de las formas en que los científicos hacen esto es mirando para ver si hay secuencias promotoras aguas arriba de un codón de inicio sospechoso. Las secuencias promotoras varían de un grupo a otro, pero tienen características específicas por las que se identifican. Si encuentra una región promotora sospechosa a la distancia correcta de un codón de inicio sospechoso, la probabilidad de que realmente haya encontrado un gen aumenta enormemente. A partir de ahí, puede ejecutar la secuencia siguiendo el codón de inicio y buscar un codón de parada, luego investigar la secuencia resultante y ver si es similar a otras secuencias de genes, cuál sería su supuesta proteína, etc.

Hay ciertas secuencias presentes que definen los límites. Durante la transcripción, las enzimas específicas buscan estas secuencias y se unen a ellas, marcando el sitio de inicio de la transcripción.

Cuando el gen termina, las enzimas detectan la secuencia que dice “Alto”.

Gran pregunta Hay una variedad de herramientas para usar, que van desde experimentales hasta computacionales. La mayoría de estos días se puede obtener una buena estimación comparándola con otros genes y proteínas. Las herramientas computacionales de novo son a menudo un poco difíciles. Las bacterias y los archea hacen la vida un poco más fácil al no tener intrones, pero aún mantienen las cosas interesantes al tener reglas más flexibles y ambiguas para comenzar la traducción. Los eucariotas son desafiantes, particularmente clavando extremos precisos de exones y encontrando hasta el último exón corto y comienzo del promotor. Sorprendería a pocos si hay genes humanos no descubiertos para producir péptidos muy cortos; Esos son problemas realmente difíciles. Y eso es genes que codifican proteínas; La predicción de novo de genes que producen ARN estructurales, distintos de tRNA y snoRNA y algunos otros con estructuras secundarias y terciarias bien entendidas, es realmente una pesadilla.

Pero aquí está el truco: su premisa subyacente no es estrictamente observada por la biología; los genes superpuestos no son desconocidos y, a menudo, modifican las “reglas” que le enseñaron.

Por ejemplo, en las bacterias es muy común que los genes se organicen en operones. Es decir, un ARN mensajero contendrá las instrucciones para hacer múltiples proteínas, cada una con un marco de lectura abierto (ORF) separado. Es posible tener múltiples promotores y múltiples sitios de terminación de la transcripción en la misma región, por lo que son posibles múltiples ARNm diferentes con diferentes conjuntos de ORF. Entonces, si piensas en “un gen = un polipéptido” como Beadle y Tatum, los operones se meten con eso, particularmente si hay múltiples promotores (a veces denominados “promotores internos”, dado que son internos de un operón) ”

¿Alguna vez pensó en las secuencias de codón de inicio y parada? El comienzo más común en bacterias es AUG, aunque en algunas especies GUG puede ser casi tan común como CUG y UUG y, en realidad, muchas otras pueden funcionar. En la mayoría de las bacterias, UAA, UGA y UAG son los codones de parada, aunque nuevamente, dependiendo de la especie, algunos de estos pueden no funcionar o pueden ser “suprimidos” con un aminoácido de una manera específica de contexto de secuencia. De todos modos, ¿no es interesante que AUG y UGA compartan un doblete de nucleótidos UG? ¿O que dos paradas terminan en A? Resulta que, en operones, el ORF inicial y final puede superponerse entre sí, más comúnmente de la manera que acabo de sugerir, pero a veces con una mayor superposición. Esto significa que los ribosomas retroceden , invirtiendo al menos un nucleótido (y a veces más). Entonces, otro caso en el que su naturaleza no respeta la idea de que los genes deberían ser unidades claramente definidas.

Jugar con las reglas típicas de traducción también se ve en muchos virus, como el VIH. Muchos virus producen múltiples proteínas funcionales a partir del mismo ORF cortándolos con una proteasa; de hecho, esas proteasas se han convertido en objetivos importantes para los antivirales para el VIH y el VHC. Un gen = un polipéptido realmente violado aquí. Pero también, en algunos casos, el mismo bit de ARNm se puede traducir de dos maneras diferentes a través del desplazamiento del marco ribosómico, en el que hay un tramo de ARN que hace que el ribosoma no se mueva con precisión 3 nucleótidos. A veces, estos cambios de marco de traducción son constitutivos, ocurren siempre o con una probabilidad establecida, pero en algunos casos están programados por otros factores. De nuevo, genes superpuestos.

Los eucariotas con sus intrones crean otra posibilidad para la superposición de genes en el cromosoma: un gen dentro del intrón de un gen diferente. El hecho de que los elementos de control transcripcional llamados potenciadores para un gen eucariota puedan estar muy distantes del promotor real y ORF brinda todo tipo de oportunidades para mezclar genes en el cromosoma lineal.

Esa es una buena muestra de las clases de genes superpuestos bien entendidos y acordados. Hay reclamos periódicos de la misma región ORF que se transcribe y lee en ambas orientaciones, pero nunca me he convencido.

Nuestro genoma es complejo y contiene múltiples genes que están perfectamente alineados. En general, cada gen contiene un ‘codón de inicio’ que indica dónde comenzaría la traducción de la proteína y un ‘codón de detención’ que indica a los ribosomas dónde termina el gen. Las otras regiones del genoma no codifican una proteína pero tienen funciones reguladoras.

¡Espero que esto ayude!

Para ese propósito, los científicos usan el mapeo de genes. Nos dice dónde se encuentra un gen en el ADN. Su punto de partida es por el codón AUG, que también se conoce como codón de inicio y su terminal contiene codón de parada como UUG… .etc.

Nota: el mapeo de genes no dice dónde ha comenzado un gen, solo dice dónde está ubicado en el ADN gigante.

More Interesting

Hace poco leí que la edición de genes en plantas con CRISPR no puede considerarse como OGM. ¿Como es posible?

¿Cuáles son algunas mutaciones causadas por carcinógenos y el método de reparación del ADN para corregir la mutación?

¿Cuál es la teoría más aceptada sobre cómo evolucionó el ribosoma? ¿Por qué?

¿Es la transexualidad una consecuencia (efecto) de la mutación?

¿Qué es la genética de especies cruzadas? Se mostró en la película Amazing Spider-Man, pero ¿existe realmente?

¿Ha habido alguna diferencia genética comprobada entre genios y personas de inteligencia promedio?

¿Qué significa para un trastorno tener una cierta estimación de heredabilidad?

¿Cómo se ven diferentes los hermanos cuando sus genes provienen del mismo padre? Además, su naturaleza y educación son las mismas, aún desarrollan diferentes personalidades, ¿cómo?

¿La evolución permite prototipos del homo sapiens como el bíblico Adán y Eva?

Si seis dedos es el gen dominante sobre cinco, ¿por qué no hay más personas con seis dedos?

¿Qué vocabulario podemos usar para reemplazar las palabras "dominante" y "recesivo" en genética?

¿Por qué los africanos y los europeos son físicamente diferentes a los asiáticos? ¿Es eso debido a la variación genética o la variación de la dieta?

¿Qué proceso contribuye más a la evolución: recombinación, transposición o mutación?

Si la teoría R + L = J es cierta, ¿por qué Jon Snow tiene el pelo negro?

Existencia: si le quita su herencia genética y el entorno que ha experimentado desde la concepción, ¿queda algo que sea realmente usted?