Esta pregunta es un problema bastante difícil, y existen varias soluciones diferentes. Tiene una página de wikipedia: predicción de genes. Pero como esta es una pregunta de Quora, haré todo lo posible para explicar algunos de los métodos más populares. Pero primero, algo de biología.
Biología Para saber cómo encontrar un gen, necesitamos saber cómo se ve. Y para saber cómo se ve, necesitamos saber cómo los encuentra la célula. Esta es una pregunta seria: en una molécula de más de 3 mil millones de bases de largo, ¿cómo podría el sistema de transcripción posiblemente reconocer una secuencia de codificación? Incluso si todos son fácilmente reconocibles al comenzar todos con la misma secuencia (que no lo son), atravesar todo el genoma buscando esas secuencias hasta que encuentre esos genes que necesitan transcribirse es demasiado trabajo para una proteína.
En cambio, los genes se encuentran con la ayuda de factores de transcripción. Estas son proteínas que se unen a ciertas secuencias genéticas en el ADN. También se unen a la polimerasa y, al hacerlo, ayudan a iniciar el proceso de transcripción. Las secuencias unidas por los factores de transcripción se denominan regiones promotoras , y se encuentran hasta unos cientos de bases antes que los genes en el ADN ( corriente arriba ). Ahora, podríamos buscar estas regiones promotoras, pero no es tan fácil. Hay muchos tipos diferentes de factores de transcripción y promotores correspondientes. Además, la unión entre el factor de transcripción y el ADN no es muy específica, por lo que un factor puede unir muchas secuencias similares . Esto los hace difíciles de encontrar si solo estás mirando la secuencia. En eucariotas, la situación es aún más compleja, principalmente porque la mayoría de los genes no están realmente presentes en la secuencia de una pieza: partes del gen se transcriben ( exones ), mientras que otras se cortan y eliminan de la transcripción antes de traducirla en proteínas ( intrones ). De hecho, qué intrones se eliminan no siempre es lo mismo, por lo que un gen puede traducirse en varias proteínas diferentes, pero eso no nos concierne en este momento.
- ¿Qué libro sobre genética debo leer?
- ¿Qué secuencia genética o genes son responsables de codificar el comportamiento en animales?
- ¿Los sicilianos tienen ascendencia del norte de África?
- ¿Cómo se produce una variación somaclonal y cuáles son algunos ejemplos?
- ¿Cuáles son algunos desafíos computacionales en genética de poblaciones?
En respuesta a las otras respuestas, quiero aclarar algo: el codón de inicio no juega ningún papel en la búsqueda de secuencias de genes . Si bien cada gen comienza con un codón de inicio de tres pares de bases (ATG en eucariotas; otros dos se usan en procariotas), esto no es lo que define el gen. De hecho, ATG también se usa como un codón dentro del gen, y ocurre fuera de las regiones de codificación. Mucho. Considere que el ADN se puede leer de 6 maneras diferentes ( marcos de lectura ): dos direcciones diferentes y tres posiciones de inicio diferentes (debido al código de tres bases utilizado). Debido a que una secuencia tan corta está destinada a ocurrir con demasiada frecuencia, el codón de inicio es de muy poca ayuda para encontrar genes, ni para los mecanismos biomoleculares en nuestras células, ni para nuestros científicos humanos.
Ahora, con la biología fuera del camino, ¿cómo encontramos los promotores y los genes en un genoma? Al igual que con muchas cosas en las ciencias de la vida, hay dos enfoques generales: uno se basa en la manipulación de reacciones enzimáticas en el laboratorio (“laboratorio húmedo”), el otro se basa en determinar y examinar la secuencia genética (” in silico ” o “bioinformática “). No puedo pasar por todas las opciones (no sé todas las opciones), pero daré un ejemplo de ambas clases.
Laboratorio húmedo Un método popular para descubrir cómo las proteínas interactúan con el ADN, es ChIP-seq (InmunoPrecipitación de cromatina – Secuenciación). En esta técnica, el ADN se extrae del núcleo de tal manera que las proteínas que se unen a él permanecen intactas. Esas proteínas se unen fuertemente al ADN. A continuación, se usan enzimas de restricción para cortar el ADN; sin embargo, las piezas donde se une la proteína están protegidas y, por lo tanto, permanecen intactas. Las piezas sueltas se eliminan y las proteínas no se unen. Cuando se secuencia el ADN restante, conocemos la secuencia precisa de los lugares en el ADN que interactúan con las proteínas, muchas de las cuales son regiones promotoras de genes.
Bioinformática El otro enfoque es no hacer nada en el laboratorio, y simplemente secuenciar todo el genoma. Si tiene suficiente conocimiento sobre cómo se ven los genes en general, debería ser capaz de construir un algoritmo que encuentre genes para usted, incluso si el genoma tiene una longitud de 3.200 millones de bases. Sin embargo, es muy difícil (o imposible) definir con precisión qué características definen un gen. Hay muchos factores de transcripción diferentes que se unen a secuencias que son más o menos similares a algún patrón que reconocen. ¿Cómo se ve ese patrón? ¿Qué tan similar debe ser la secuencia para unir el factor de transcripción? Algunos patrones son más estrictos que otros, y algunos tienen una influencia más fuerte en la activación de un gen que otros. Es imposible establecer umbrales exactos, y es imposible codificar todo esto a mano. En cambio, los bioinformáticos utilizan una variedad de métodos que pueden ser “entrenados” utilizando secuencias genéticas conocidas para saber cómo se ve un gen. Luego puede usar ese conocimiento para reconocer otros genes. Ejemplos de tales algoritmos basados en redes neuronales y modelos ocultos de Markov.
Un ejemplo que viene a la mente es GENSCAN, un tipo de modelo de Markov oculto generalizado. Es viejo, pero bien conocido y un buen ejemplo. En este modelo, el genoma es esencialmente una progresión de “estados” (diferentes tipos de intrón, exón, promotor, etc.). Cada estado tiene sus propias características definitorias, y solo puede ser precedido y seguido por ciertos otros estados (por ejemplo, es probable que un promotor tenga al menos una de las secuencias conocidas que unen factores de transcripción, siempre va precedido por ADN no codificante y seguido por un gen). Después de alimentar a GENSCAN con un conjunto de datos que le enseña cómo se ve cada estado, puede usar esa información para encontrar la progresión del estado más probable y, con ella, la ubicación de los genes en otro genoma. Posteriormente, los genes predichos pueden verificarse mediante métodos de laboratorio húmedo.
Representación esquemática de los estados utilizados en GENSCAN. Las flechas indican posibles progresiones entre estados.
Imagen de Stein, anotación del genoma: de la secuencia a la biología. Nature Reviews Genetics 2, 493-503 (julio de 2001) (figura fuera del muro de pago).