¿Cuáles son los mayores problemas sin resolver en la investigación moderna del genoma?

Kevin tiene razón: estamos tratando de realizar ingeniería inversa en un sistema extremadamente complejo. Y seguimos descubriendo mecanismos completamente nuevos cuya existencia ni siquiera se sospechaba cuando estaba en la escuela de posgrado, como siRNA y microRNA. Todo el campo de la epigenética también ha explotado en los últimos años; Cuando estaba en la escuela de posgrado, pensábamos que las histonas eran básicamente pequeños carretes como un carrete de madera para almacenar hilo.

Gran parte de la dificultad en bioinformática proviene de un solo hecho sobre el genoma: ¡el código genético carece de puntuación! Puede dividir una secuencia de nucleótidos en “codones” de tres letras en múltiples formas que se conocen como “marcos de lectura”. En los genomas virales, con los que trabajo mucho, hay muchos “marcos de lectura superpuestos” en los que el mismo tramo de nucleótidos es parte de dos genes diferentes. El siguiente ejemplo proviene de la cepa HXB2 del VIH. Tenga en cuenta que ambas traducciones cubren exactamente los mismos nucleótidos, simplemente los dividen en tres de manera diferente. Ambas traducciones son proteínas reales que el virus produce en las células humanas.


El tramo de secuencia anterior proviene de la región donde “GAG” y “POL” se superponen en este mapa del genoma:

Señales del genoma del VIH

Hay algunos marcos de lectura superpuestos en el genoma humano, pero son menos comunes. En los genomas virales son muy comunes.

En el nivel más alto, casi todo sigue sin resolverse. Como informático, describiría la situación de esta manera: estamos tratando de aplicar ingeniería inversa a un programa informático que consta de varios millones de líneas de código no comentado, que se ejecuta de forma paralela masiva, escrito en un lenguaje que no entendemos, ejecutándose en una variedad de máquinas que no entendemos completamente, donde el código y los datos se mezclan libremente; y no tenemos herramientas de depuración aparte de ajustar algo, verlo correr y observar el resultado. Casi a diario se revelan nuevas ideas y, sin embargo, apenas hemos arañado la superficie de cómo funciona esta máquina.

En este momento, se está haciendo un gran trabajo, utilizando la ciencia de datos, para encontrar correlaciones entre genes y enfermedades específicas, pero en la mayoría de los casos todavía estamos muy lejos de poder decirte por qué un cambio en ese gen causa una enfermedad (si es que lo hace) Entonces, en los casos en que sabemos cuál sería la versión “normal” de ese gen, podríamos sugerir terapias genéticas para repararlo. Pero realmente no sabemos lo que estamos encendiendo y apagando cuando hacemos eso.

Del mismo modo, podemos reconocer a nivel genómico algunas diferencias entre las criaturas que pueden volver a crecer partes del cuerpo perdidas y las que no pueden, pero ni siquiera podemos comenzar a describir cómo hacer modificaciones a un genoma para agregar habilidades regenerativas. En una línea similar, tenemos una comprensión básica de cómo el genoma impulsa la especialización celular (y cómo las células madre encajan en ese proceso), pero solo tenemos la idea más dura de cómo usar eso para regenerar tejidos u órganos dañados.

Otro problema no resuelto es el llamado “ADN basura”. Hay una gran parte de nuestro genoma que no codifica la transcripción de proteínas; sabemos que al menos parte de esto hace algo útil en la mayoría de las especies, porque eliminarlo hace que las cosas salgan mal. Pero no entendemos sus funciones. Una vez más, esto indica cuán poco entendemos en general sobre el genoma y la máquina que maneja.

mapeo y anotación del epigenoma a escala