¿Por qué la vida usa un sistema cuaternario (A, T, G, C) para codificar información en lugar de un sistema binario?

Como dijo correctamente Alex Khomenko, un alfabeto de dos nucleótidos requeriría un codón mucho más largo para codificar un número igual de aminoácidos. Pero espere un minuto, si esta es la única fuerza en el trabajo, ¿por qué detenerse en cuatro nucleótidos? ¿No debería un alfabeto de seis nucleótidos ser capaz de crear [matemáticas] 6 ^ 2 = 36 [/ matemáticas] combinaciones de aminoácidos, suficientes para todos los aminoácidos con codones de parada y algo de degeneración, mientras que también reduce el requerimiento de codones de tres a dos y por lo tanto condensar la información en un 50%? ¡Acaba de tropezar con una de las preguntas abiertas más interesantes en el origen de la investigación de la vida, y una que investiga la pregunta fundamental de cómo evolucionaron los biopolímeros que conocemos hoy en la vida temprana en la Tierra! Debido a varias restricciones competitivas, cuatro parece ser el número óptimo de nucleótidos.

No se nos escapó la noticia de que el emparejamiento específico que hemos postulado sugiere de inmediato un posible mecanismo de copia para el material genético. “- Watson y Crick, 1953.

Quizás la línea única más famosa en biología molecular prepara el escenario para esta pregunta. La complementariedad del ácido nucleico , que es la capacidad de cada nucleótido para emparejarse , es esencial para cualquier biopolímero replicante y, por lo tanto, un requisito para los sistemas autorreplicantes que conocemos como vida. Mirando más de cerca los pares de nucleótidos a nivel químico, nos damos cuenta de que la complementariedad se logra, al menos en parte, haciendo coincidir los pares de donantes y aceptores de enlaces de hidrógeno . Para los pares de bases GC tenemos un patrón de DAA (donante-aceptor-aceptor) emparejado con ADD. Para AT (o AU) tenemos DA emparejado con AD, aunque es evidente que una pequeña modificación de adenosina a amino adenosina lo convierte en DAD y ADA como se muestra a continuación. También tenemos que tener en cuenta el apilamiento de bases y las limitaciones estéricas, por lo que, en aras de la discusión, limitémonos al emparejamiento entre las purinas y pirimidinas en forma de anillo y complementarias. Dados tres sitios bien espaciados para grupos funcionales donantes o aceptores de enlaces de hidrógeno en cada anillo, debe haber [matemática] 2 ^ 3 = 8 [/ matemática] patrones de unión de hidrógeno mutuamente excluyentes, de los cuales la naturaleza usa solo dos (AT y GC) . Seis de ocho se muestran a continuación: A Steven Benner se le atribuye darse cuenta de esto (producir la figura anterior), así como sintetizar e incorporar uno de los nuevos pares de bases de purina-pirimidina en el ADN, abriendo así el campo del ADN sintético. [1] Desde su artículo de referencia, otros laboratorios han llegado a sintetizar y obtener polimerasa para incorporar con éxito una variedad de nucleótidos no naturales, lo que demuestra el potencial de un conjunto de ácido nucleico expandido más temprano en la evolución. Entonces, si las enzimas pueden incorporar más de cuatro nucleótidos, y un alfabeto más grande parece ser útil para un mayor ajuste de la información, volvemos a la pregunta original de por qué no lo hacen.

No podemos responder adecuadamente la pregunta desde la perspectiva del sistema actual de dos biopolímeros (ácidos nucleicos y proteínas) y, en cambio, debemos examinar las fuerzas en el trabajo más temprano en la evolución cuando el código de cuatro nucleótidos estaba bloqueado en su lugar. La hipótesis mundial del ARN , basada en la presencia de ribozimas (enzimas hechas de ARN), sugiere que antes de que el almacenamiento de información se especializara en ADN y antes de que las enzimas se especializaran en proteínas, el ARN era capaz de cumplir ambas funciones. El trabajo fundamental en biología evolutiva realizado por John Maynard Smith y Eörs Szathmáry aborda algunas consecuencias importantes del mundo del ARN. [2] Para abreviar, un artículo de revisión de Szathmáry resume las fuerzas evolutivas en el trabajo detrás del alfabeto de cuatro letras en un mundo de ARN. [3]

Szathmáry identifica cuatro restricciones principales en la introducción de nuevos pares de bases:

  1. Estabilidad química : la química del par de bases debe ser estable y no descomponerse fácilmente.
  2. Estabilidad termodinámica : el par de bases no debe alterar la estabilidad termodinámica de la estructura del ácido nucleico (es decir, al interrumpir las interacciones de apilamiento de bases o al introducir choques estéricos desfavorables). Hay un gran grupo de pares de bases potenciales que no afectarán la estabilidad termodinámica.
  3. Procesabilidad enzimática : las polimerasas deberían poder incorporar los pares de bases en los cebadores con suficiente precisión y errores correctos que surjan.
  4. Selectividad cinética : cada par de bases es lo suficientemente ortogonal a los demás. Aunque se produce una falta de coincidencia (de hecho, se requiere una cierta falta de coincidencia para la selección natural), los pares de bases deben verse lo suficientemente diferentes entre sí para que cada replicación se produzca con una fidelidad relativamente alta.

Los dos últimos, procesabilidad enzimática y selectividad cinética , contribuyen más a las limitaciones en el tamaño del alfabeto genético porque se relacionan directamente con la precisión de la replicación .

En el mundo del ARN, donde el ARN debe servir tanto como portador de información como el bloque de construcción enzimático primario, existe una compensación entre la optimización de dos factores:

  1. Eficiencia enzimática , que aumenta con el tamaño del alfabeto.
  2. Precisión de replicación , que disminuye con el tamaño del alfabeto.

La eficiencia enzimática ejerce presión sobre el aumento del tamaño y la variedad del alfabeto. Más nucleótidos en el alfabeto significa acceso a una mayor variedad de química y más interacciones diferentes. Esto reduce la longitud del polímero requerida para plegar estructuras catalíticamente activas. Esto es evidente en la capacidad de las proteínas, que usan un alfabeto más grande de 20 aminoácidos, para plegarse en una variedad más amplia de estructuras que el ARN y hacerlo con secuencias más cortas. Aunque cuatro nucleótidos parecen ser suficientes para construir enzimas funcionales, claramente representa un alfabeto más pequeño que óptimo para esta función (y si se suscribe al mundo de ARN es muy probable que sea una razón principal por la que la vida favoreció la separación de la molécula enzimática de la molécula portadora de información). Pero en el mundo del ARN, antes de la especialización del papel enzimático en proteínas, hay otra compensación a tener en cuenta al aumentar el tamaño del alfabeto de ARN.

La precisión de la replicación ejerce presión para mantener pequeño el tamaño del alfabeto. Los alfabetos más grandes son más propensos a errores de replicación, lo cual es especialmente cierto considerando el número limitado de patrones de donantes y aceptadores de enlaces de hidrógeno y las restricciones cinéticas ya pequeñas que se imponen a los desajustes. Al representar estas tres posiciones de donantes y aceptores más la identidad del nucleótido como purina o pirimidina como números de 4 bits, cuatro nucleótidos parecen ser óptimos. [4] Comenzando con el conjunto de 8 pares de nucleótidos presentado por Benner (y que se muestra en las figuras a continuación), para crear un conjunto de pares de nucleótidos de manera que cada falta de coincidencia sea al menos dos enlaces de hidrógeno donador / aceptor menos estables que una coincidencia, el ” paridad “del conjunto debe ser todo par (los 4 pares en la columna izquierda) o todo impar (los cuatro pares en la columna derecha).
Esto limita el conjunto a cuatro pares posibles de los ocho originales, pero la inestabilidad química de algunos de estos nucleótidos lo limita aún más. S falla la prueba de estabilidad química , tener un oxígeno central lo hace susceptible a la hidrólisis. iG no pasa la prueba de selectividad cinética porque tiene un tautómero (interconversión de dos de sus grupos de ceto a enol y amina a imina) que hace que su patrón donante y aceptor de hidrógeno sea idéntico a aA y, por lo tanto, iG no coincida con U. Esto deja solo dos posibles pares de los ocho originales, aAU y GC.

Observe el siguiente número de desajustes entre el donante / aceptor de enlaces de hidrógeno entre todos los pares posibles: aAU = 0, GC = 0, UG = 2, UC = 2, aAG = 2, aAC = 2, UU = GG = CC = aAaA = 3. Las coincidencias coinciden bien y los desajustes están apagados en al menos dos posiciones de donante / aceptador. La adición de cualquier ácido nucleico de paridad impar crearía algunos desajustes que difieren en una sola ubicación del donante / aceptor de enlaces de hidrógeno (es decir, XC en el diagrama a continuación). Esto haría que las mutaciones fueran significativamente más comunes y, por lo tanto, disminuiría la precisión de la replicación .
Cuatro nucleótidos parecen ser el compromiso óptimo para equilibrar tanto la precisión de la replicación como la eficiencia enzimática requerida en el mundo del ARN. Uno de los pocos conjuntos de cuatro nucleótidos que satisfacen este criterio y maximizan las diferencias en los enlaces de hidrógeno entre los emparejamientos erróneos es aA (amino adenosina), U, G y C.

Pero, ¿cómo sabemos que la evolución no favorecería la mayor tasa de desajustes creados por la ” paridad mixta “? Se utilizaron simulaciones in silico para desarrollar una molécula de ARN en forma de hoja de trébol (en 2D) a través de ciclos de mutación sucesivos utilizando alfabetos de nucleótidos de ARN de diferentes tamaños. Cuanto más cerca estaba la forma pronosticada de una hoja de trébol después de 1,000 generaciones, mayor era el puntaje de aptitud física, lo que requería el equilibrio óptimo entre la estabilidad del alfabeto y su capacidad de evolución . Un alfabeto de cuatro nucleótidos tenía la aptitud física más alta. [5] Esto sugiere que una falta de coincidencia de dos grupos donantes / aceptores de enlaces de hidrógeno entre cada par de bases no coincidentes, como está presente en un conjunto de cuatro nucleótidos, representa un equilibrio óptimo entre la capacidad de evolución y la estabilidad bajo ciertas tasas de mutación.

Como resumió sucintamente Szathmáry [3]:

Por lo tanto, se podría concluir que todas las investigaciones teóricas apuntan en la misma dirección: un cierto tamaño del alfabeto (probablemente cuatro) parece ser óptimo como un compromiso entre la estabilidad y la capacidad de evolución, entre la fidelidad y la eficiencia catalítica, y entre la densidad de información y la resistencia al error.

Ciertamente, esta no es una pregunta cerrada. Poco se sabe sobre el origen de la vida y lo que se sabe es a menudo altamente especulativo. No obstante, este trabajo demuestra al menos algunas de las fuerzas competidoras que probablemente condujeron a nuestro conjunto actual de exactamente cuatro nucleótidos, incluso si las piezas individuales requieren actualizaciones a medida que el consenso científico deriva sobre el origen de las biomoléculas y la propia hipótesis del mundo del ARN.

[1] Piccirilli, JA, T. Krauch, S. Moroney y S. Benner. “La incorporación enzimática de un nuevo par de bases en el ADN y el ARN extiende el alfabeto genético”. Nature 343, no. 6253 (1990): 33–37. http://www.ffame.org/sbenner/nat….
[2] Maynard Smith, J y E Szathmáry. Las principales transiciones en la evolución. Editado por G Cowan, D Pines y D Meltzer. Naturaleza. Vol. XIX Oxford University Press, 1995. http://www.isrl.uiuc.edu/~amag/l….
[3] Szathmáry, Eörs. “¿Por qué hay cuatro letras en el alfabeto genético?” Nature reviews. Genética 4, no. 12 (diciembre de 2003): 995-1001. http://www.ncbi.nlm.nih.gov/pubm….
[4] Mac Dónaill, Dóntodo a. “Por qué la naturaleza eligió A, C, G y U / T: una perspectiva de codificación de errores de la composición del alfabeto de nucleótidos”. Orígenes de la vida y evolución de la biosfera: la revista de la Sociedad Internacional para el Estudio del Origen de la Vida 33, No. 4-5 (octubre de 2003): 433-55. http://www.ncbi.nlm.nih.gov/pubm….
[5] Gardner, Paul P, Barbara R Holland, Vincent Moulton, Mike Hendy y David Penny. “Alfabetos óptimos para un mundo de ARN”. Actas. Ciencias biológicas / The Royal Society 270, no. 1520 (7 de junio de 2003): 1177-82. http: //www.pubmedcentral.nih.gov….

Permítanme comenzar diciendo que no hay nada mágico en que las computadoras sean binarias, es solo el sistema más fácil para que podamos diseñar circuitos eléctricos (activar / desactivar).

El hecho de que el ADN sea cuaternario probablemente sea solo un accidente evolutivo, los organismos que eventualmente se apoderaron del planeta descendieron de un ancestro común que usó un código cuaternario, por lo que todos lo usamos también. Es posible que haya habido otras formas de vida antiguas que usaban códigos diferentes, simplemente no las conocemos porque no sobrevivieron lo suficiente como para que podamos probarlas. Es solo que es útil que todos los organismos vivos sean consistentes en su código, para que puedan usar el material genético de cada uno como moléculas intactas para usar genes extraños (las bacterias son fantásticas en esto) o como materia prima para hacer su propio ADN

Hay más de 4 bases que pueden usarse en el ADN, como el uracilo, que a menudo se genera por desaminación de bases de metil-citosina. Estos errores se cambian rápidamente en una de las 4 bases estándar, pero a menudo de manera incorrecta, lo que conduce a una alta tasa de mutación C-> T en muchos organismos.

También vale la pena señalar que el código de aminoácidos (qué conjunto de códigos de 3 bases para qué aminoácido), también es casi universal, con algunas raras excepciones en algunos microbios extraños que han modificado ligeramente el código (por ejemplo, el código de STOP ahora códigos para un aminoácido). También hay un puñado de organismos que conocemos que usan aminoácidos no estándar. Cada organismo también usa una quiralidad particular de aminoácidos (la forma L es la quiralidad estándar), que es buena para que los organismos usen fácilmente los aminoácidos que obtienen al comer otros organismos / el medio ambiente. Nuevamente, la consistencia en el mundo biológico es muy valiosa.

Gracias por el A2A!

Tiendo a estar de acuerdo con Patrik en que las ventajas combinatorias de ACTG, aunque son intrigantes y equilibradas, pueden no captar completamente la naturaleza altamente evolucionada de la evolución. De hecho, estas características describen las ventajas de nuestro sistema actual, pero Patrik observa además una perspectiva histórica que realmente se centra en la complejidad de por qué tenemos este ‘sistema’.

Dicho esto, no estoy seguro de que podamos ver esto como un ‘sistema de codificación’ tanto como el biomecánico que realmente resulta ser. Estas cuatro bases de nitrógeno se unen entre sí de manera muy específica; La transcripción y traducción es un proceso altamente regulado mediado por una cola poli-A, factores de iniciación, las ribozimas a las que Patrik se refiere, etc. Lo que vemos como información de codificación, de principio a fin, es en última instancia un proceso mecánico, por eso es moderno. los desarrollos diarios en syn bio (Craig Venter) han atraído tanta atención y respeto, y también por qué son posibles, por lo tanto, es difícil atribuir alguna razón oculta detrás de por qué estas propiedades físicas se desarrollaron de la manera en que lo hicieron (mucho como la forma en que las rocas sedimentan debido a procesos geológicos a lo largo del tiempo).

Irónicamente, lo anterior ^ podría explicar por qué el combo 2 ^ 6 que Patrik menciona no funcionaría. Los codones de tamaño 2 implicarían dos bases en el ARNt expuesto a la cadena de ARNm en el sitio A del ribosoma, pero las tres bases de codón están expuestas debido a arreglos estructurales específicos en la forma en que se forma el ARNt, no por alguna razón probabilística. La estructura de tRNA es, simplemente, predefinida.

Y es por eso que lo que vemos como conveniente, al menos en nuestra era digitalizada de procesamiento binario, es en gran medida irrelevante para la forma en que los fundamentos de la biología molecular establecen el tono de cómo nuestras células ‘procesan la información’.


Información adicional desde la perspectiva de la estructura de tRNA:

Las interacciones hidrofóbicas se aplican más al apilamiento de bases que explica la estructura terciaria estable de tRNA, los anillos aromáticos de las bases son hidrofóbicos y se atraen entre sí, por lo que lo que estamos acostumbrados a pensar como tres bucles y un tallo aceptor realmente equivale a siguiente estructura: este sitio le permite visualizarlo bien (puede cambiarlo / etc):

http://higheredbcs.wiley.com/leg

Eso no le permite ver las interacciones hidrofóbicas precisas, pero dado que las bases en sí son hidrofóbicas, tiene sentido que se apilen coaxialmente: la estructura terciaria compacta resultante garantiza que la molécula de tRNA tendrá más estabilidad que la estructura sin el apilamiento. Me arriesgaría a adivinar que los bucles D y T apilados tendrían que estirarse de su estructura predicha si se exponen bases adicionales en la unión de giro en U (y cualquier técnica synbio requeriría aliviar esa presión) ver foto ->

http://www.google.com/imgres?img

Además, este artículo de Tyagi y Mathews parece sugerir aún más que se puede predecir el apilamiento: http://rnajournal.cshlp.org/cont
Si eso es cierto, parece que el número de bases en un codón, que también se ve afectado directamente por la estructura del ARNt, debería ser predecible.

Pero aún más relevante, la secuencia anticodón se encuentra en una estructura llamada bucle de horquilla. La sección de ‘formación y estabilidad’ de este artículo de Wikipedia muestra que la estabilidad (el tipo de estabilidad proporcionada por el apilamiento de bases mencionado anteriormente, junto con las bases que se unen entre sí por hidrógeno) es clave para garantizar que se puedan formar estos bucles; y estos bucles tienen una longitud óptima de 4-8 bases. Dado que el bucle necesita alcanzar un equilibrio entre el tiempo suficiente para evitar choques estéricos y lo suficientemente corto como para formarse realmente (ya que estas bases no se emparejan como de costumbre y dependen de la cadena base antes que ellas en el bucle para formar un enlace de hidrógeno uno al otro para proporcionar estabilidad): el tamaño del bucle está comprensiblemente confinado. El enlace wiki:
http://en.wikipedia.org/wiki/Ste

Para obtener más información sobre esto, Noller escribió un artículo de revisión científica citado con frecuencia que describe las intrincadas estructuras de ARNt como “increíblemente intrincadas y elegantes” (el libro de texto MBOC toma nota de esto). Una ojeada rápida de esto muestra que los emparejamientos definitivos de AU / CG no siempre son el caso, con abultamientos, torceduras, etc. en el tRNA: http://www.psi.toronto.edu/~frey

Con todo, estoy dispuesto a creer que los bucles de horquilla pueden exprimir potencialmente una cuarta base (proporciona estabilidad adicional aguas abajo) o incluso estirarse lo suficiente como para sacar la tercera base para un anticodón de 2 bases con suficiente presión; pero con mi comprensión limitada de las fuerzas intermoleculares que gobiernan la estructura de la molécula de ARNt, soy más propenso a tomar el codón clásico de 3 bases al pie de la letra. Dicho esto, el artículo de Noller muestra que la versatilidad del ARN lo hace altamente adaptable al tipo de empresas que Alex señaló, y sería muy interesante ver cómo se desarrollan y se desarrollan en el transcurso de los próximos 20 años gracias a la bioingeniería mejorada técnicas

Las secuencias de nucleótidos de ADN necesitan codificar hasta 20 aminoácidos diferentes utilizados para construir proteínas. Con la codificación binaria, se necesitarían codones de 5 nucleótidos para codificar los 20 aminoácidos (usar 4 solo le da 2 ^ 4 = 16 combinaciones, 5 le da 2 ^ 5 = 32). Con 4 nucleótidos, los codones de tamaño 3 pueden codificar 4 ^ 3 = 64 combinaciones diferentes correspondientes a 20 aminoácidos (casi todos tienen codificaciones múltiples) y detener los codones.

Parece que 4 nucleótidos ofrece un sistema más eficiente de codificación de aminoácidos (los codones de tamaño 3 son más rápidos de construir que los codones de tamaño 5) mientras mantiene el número de nucleótidos distintos necesarios para estar presentes en una célula a un nivel relativamente bajo.