¿Se puede inferir la naturaleza de 4 bases del ADN a partir de datos estadísticos?

Una forma diferente de preguntar esto es “¿hay formas en que el esquema de codificación de 4 pares de bases se filtre en el fenotipo de tal manera que se pueda inferir el esquema de codificación?”

Es posible que la respuesta sea “sí”, pero no sería una inferencia fácil.

Como primera aproximación, la heredabilidad de los rasgos se parece a una “caja negra” a nivel del gen, que ya es una secuencia larga de “código” de ADN. Con los genes que actúan como las unidades combinadas básicas de la herencia, es difícil llegar mucho más abajo que en detalle simplemente analizando estadísticamente los rasgos observables.

Sin embargo, los genes no son verdaderas unidades independientes. Hay muchas interacciones genéticas que son efectos secundarios del esquema de representación física. Por ejemplo, los genes interactúan de acuerdo con su proximidad física en el ADN. Y aunque normalmente solo un lado del ADN codifica las proteínas (el lado “sensorial”), el lado antisentido también tiene influencias genéticas, y los patrones pueden cambiar de lado en ciertos tipos de mutaciones. ¿Podrían estos efectos indirectos implicar el emparejamiento AT, CG? Además, los fragmentos de ARN también funcionan como mecanismos (enzimas de ARN), por lo que los fragmentos de ADN no siempre necesitan codificar proteínas para tener un efecto en la célula. Y, por último, las mutaciones, que pueden resultar del intercambio de un solo par de bases, podrían de alguna manera revelar la estructura de codificación intrínseca, suponiendo que las proteínas mutantes se secuenciaron. Por ejemplo, un emparejamiento de base 2 tendría diferentes patrones de mutación.

Incluso con todo esto, el esquema de codificación de 4 pares de bases está tan alejado de la expresión del rasgo fenotípico, que es difícil ver cómo uno podría concluir definitivamente 4 bases solo del análisis del rasgo.

No, no podríamos haber sabido que había cuatro pares de bases. Si tuviéramos solo dos pares de bases, podrían emular cuatro pares de bases perfectamente. [1] Simplemente tendría que haber el doble de ellos. Llama a los dos pares de bases Y y Z. Luego deja

A = YY
T = YZ
C = ZY
G = ZZ

entonces GATTACA se convertiría en ZZYYYZYZYYZYYY. (Nunca antes me había dado cuenta de que el título de la película se podía deletrear con ADN de esa manera. Comencé a escribir algo así como GTAACA, luego pensé “oh, eso se parece a Gattaca” y tuve un completo momento mental).

Aunque no se conocían todos los detalles, sí se conocía una cantidad sorprendente. Como dijiste, los experimentos en las tasas de cruce permitieron a los genetistas determinar las ubicaciones aproximadas de los genes en los cromosomas. Específicamente, puede observar dos rasgos, A y B, y observar que se heredan juntos el 90% del tiempo. Luego observe un tercer rasgo C. A y C se heredan juntos el 80% del tiempo. B y C 90%. Se infiere que B está a medio camino entre A y C.

Además de las consideraciones estadísticas, también teníamos buenas ideas sobre cómo se almacena la información genética, incluso antes de descubrir que estaba almacenada en el ADN.

En su libro What is Life de 1944, Erwin Schrodinger conjeturó lo que finalmente encontramos cierto: que la información almacenada en un organismo y luego transmitida de generación en generación se graba digitalmente en un largo cristal aperiódico. Hizo esto al considerar el problema físico que la vida tiene que resolver, manteniendo algún tipo de contenido de información, en un ambiente térmico caliente.

El artículo de Wikipedia es un buen resumen.
http://en.wikipedia.org/wiki/Wha

El libro en sí también es bastante accesible y es un gran ejemplo de cómo aplicar un pensamiento físico bastante simple para resolver problemas que de otra manera serían difíciles.
http://home.att.net/~p.caimi/sch

El libro de Schrodinger se basa en conferencias públicas que dio. Se basa considerablemente en el trabajo previo de varias personas, y puede considerarse una buena instantánea del conocimiento que teníamos sobre los mecanismos de la genética antes de la década de 1950. En la década de 1950 descubrimos que el ADN es definitivamente la molécula genética, luego encontramos su estructura. Sin duda es impresionante hasta qué punto la extrapolación pura de los primeros principios llegó antes de eso.

[1] No estoy seguro de que dos y cuatro pares de bases sean perfectamente equivalentes. Hay un mapeo uno a uno entre ellos. Sin embargo, GA solo se puede dividir entre las dos letras, mientras que el ZZYY equivalente se puede dividir en tres lugares. Esta diferencia me parece muy pequeña.