Si construimos árboles filogenéticos de proteínas específicas (como las proteínas resistentes al frío), ¿podríamos encontrar posibles marcadores de cambio climático abrupto?

Mi respuesta corta es no, no puedes hacer eso. Mi (muy) larga respuesta está a continuación:

No quiero reventar tu burbuja ni nada, pero creo que simplemente rastrear cuellos de botella es un juego completamente diferente de lo que estás hablando (y los resultados de tales análisis son mucho más fáciles de defender). En particular, el uso de un gen codificador de proteínas para detectar la presión de selección pre-cámbrica es básicamente imposible.

El problema (para los genetistas) con muchos genes codificadores de proteínas es que no son muy informativos filogenéticamente a largo plazo. Esto se debe a que, en un marco de lectura dado (el “gen” que termina siendo transcrito), aproximadamente dos de cada tres (pero principalmente el tercero) posiciones de codón pueden mutar al azar sin ningún cambio resultante en la traducción. Por lo tanto, los genes que codifican proteínas pueden (y a menudo lo hacen) mutar rápidamente, pero por lo general todavía expresan los mismos aminoácidos, en el mismo orden, durante mucho tiempo. Los genes que mutan rápidamente (genes variables) son mucho más útiles para detectar eventos filogenéticos a corto plazo que los genes que mutan lentamente (conservados). Sin embargo, después de mucho tiempo, los genes variables se diversifican tanto dentro de una población (o tan divergentes entre poblaciones) que no se puede emparejar de manera confiable la distancia genética con un marco de tiempo específico, y mucho menos construir una filogenia confiable. Esto se debe a algo llamado “saturación”. Aquí hay una forma de pensarlo:

Imagine que está viendo dos secuencias homólogas, no codificantes (“ADN basura”), cada una de 100 bases de largo, de dos organismos separados. (Este tipo de sitios se denominan “marcadores neutrales” y son realmente útiles para medir los tiempos de divergencia para subespecies y poblaciones.) Los llamaremos Secuencia 1 y Secuencia 2. Si las secuencias son idénticas en cada posición, excepto en una, ¿Cuántas ALEATORIAS? ¿Crees que han ocurrido mutaciones aquí? En este caso, “uno” sería una respuesta segura (con los datos dados, ¡no se puede decir qué secuencia realmente contiene la mutación!), Haciendo que la “distancia genética” entre estos dos fragmentos sea 1/100, 0.01 o 1% . Sin embargo, una cosa importante para recordar de ahora en adelante es que las mutaciones se pueden revertir, también al azar. Entonces, en el primer ejemplo, es posible que, por ejemplo, una “A” en una de las secuencias haya mutado al azar a una “G” y luego VOLVER a una “A”, lo que significa que la distancia genética “real” entre estas secuencias es mayor que la distancia “estimada”. Estos eventos se denominan “mutaciones inversas” y son efectivamente indetectables, aunque sabemos que deben ocurrir a un ritmo significativo (y constante). En el primer caso, la probabilidad de una mutación inversa es extremadamente baja, ya que tendría que ocurrir en un solo sitio, dos veces seguidas. En consecuencia, la probabilidad de DOS mutaciones posteriores, en este caso, es aún más extremadamente baja, y así sucesivamente. Ahora digamos que hay 20, 30, 40, 50 … diferentes posiciones en las secuencias. Aquí es donde las cosas comienzan a ponerse interesantes …

La forma “fácil” (léase: incorrecta) de estimar estas distancias es decir que las secuencias son 20, 30, 40 y 50% …… .. divergentes, respectivamente, pero a medida que aumenta el número de mutaciones aleatorias observables, usted tiene que tener en cuenta el creciente número de mutaciones de retroceso aleatorias, ya que por cada X mutaciones “aleatorias” aleatorias que puede ver, es muy probable que ocurran mutaciones de retroceso Y (no sé X e Y de antemano, pero Y en realidad se convierte en un número entero en secuencias lo suficientemente largas). Ahora, si este fuera el único problema, podríamos comenzar a estimar distancias genéticas “verdaderas” en algunos casos, pero hay otro tipo de mutación confusa que matará ese sueño imposible en poco tiempo.

Imagina que las secuencias 1 y 2 son idénticas en un punto en el tiempo. En un sitio dado, digamos la base 50 en cada secuencia, hay una “A”. Con el tiempo, la secuencia 1 muta al azar y una “C” reemplaza a la “A”. Más tarde, sucede exactamente lo mismo en la secuencia 2, por lo que ahora ambas secuencias tienen una “C” en la posición 50. Ahora, aunque las dos secuencias han “divergido”, ya que ambas experimentaron mutaciones aleatorias e independientes, siguen siendo totalmente idénticas ! Esto no es realmente lo mismo que una “mutación en la espalda” (y probablemente haya una palabra especial que no tenga ganas de mirar hacia arriba), pero voy a agrupar esta mutación y la que describí anteriormente , en la misma categoría.

El escenario que describí inmediatamente arriba puede parecer trivial, ya que la probabilidad de que esto suceda en dos secuencias idénticas es extremadamente baja. Sin embargo, volvamos al ejemplo anterior, donde hay 30, 40, 50 … diferencias entre las secuencias 1 y 2. En estos casos, hay una gran cantidad de sitios donde una mutación “hacia adelante” en una secuencia en realidad puede BAJAR la distancia genética observada entre las dos secuencias. Por ejemplo, una mutación aleatoria de “C” a “G” en el sitio 40 en la secuencia 1, cuando la secuencia 2 ya tiene una “G” en el sitio 40, ¡hace que las dos secuencias sean más similares! Esto significa que, además de estimar el número de la primera clase de mutaciones posteriores, también debe estimar la aparición de la segunda clase que acabo de describir. El proceso de estimación se vuelve cada vez más complicado (léase: potencialmente inexacto) a medida que se acumulan más y más mutaciones observables. Teóricamente, aún puede estimar la divergencia genética, con una confianza cada vez menor, hasta un punto crítico. Cuando dos secuencias son tan divergentes que la probabilidad de una “mutación inversa” (disminuye la distancia) es igual a la probabilidad de una “mutación frontal” (aumenta la distancia), decimos que están “completamente saturadas”. Creo que el punto de saturación teórico para secuencias aleatorias es del 75% (tendría que hacer los cálculos), pero en la práctica, con una divergencia de alrededor del 30%, tanto secuencias aleatorias (neutrales) como no aleatorias o “menos” aleatorias (seleccionadas) se consideran “demasiado saturados” para ser utilizados para inferencias significativas.

Los genes codificadores de proteínas y las regiones no codificantes se saturan rápidamente, porque mutan rápidamente, porque son “relativamente” neutrales. Los genes conservados son cosas como el ADN ribosómico, donde prácticamente todas las bases de la secuencia tienen un “significado” significativo. (Creo que los genes Hox también están altamente conservados por una razón similar). Aun así, incluso los genes conservados solo son informativos en un cierto momento. En el rango de “decenas de millones” a “cientos de millones de años”, casi todo está saturado, prácticamente hablando, por lo que las principales ramas del árbol de la vida no se basan únicamente en la genética. En realidad, si estás viendo eventos pre-cámbricos, existe la posibilidad de que la mayoría de estos genes aún no existieran en ese momento.

Por cierto, es posible que tenga suerte usando la genética (no solo la filogenia, sino también la genética de la población) para observar los efectos del cambio climático más reciente. Tal vez incluso el cambio climático que está sucediendo hoy …

Puede que le interese un software como PAML o HYPHY, que intenta inferir las tasas de selección en los nodos filogenéticos, que creo que es a lo que intenta llegar con esta pregunta.

Teóricamente sí.

Lo que puede hacer es construir un árbol filogenético de su proteína de interés (usando la secuencia de ADN) y luego usar un método de datación para obtener datos para el “evento” (por ejemplo, un cuello de botella) que haya observado. Si la fecha del “evento” y el evento ambiental que le interesa coinciden, entonces lo que puede hacer es inferir una correlación entre el evento ambiental y los cambios observados en la secuencia de ADN de la proteína.