Básicamente se pregunta si podemos predecir la epistasis. La respuesta es sí pero no muy bien.
Como otros han mencionado, si supiéramos el mecanismo exacto para el efecto de cada gen, entonces probablemente podríamos determinar los efectos de su combinación con alta precisión. El problema es que sabemos muy poco sobre el gen para los mecanismos de resultado (causa) de casi cualquier gen que nombre (y tantos otros que ni siquiera tienen un nombre). Entonces, para un par arbitrario de genes, lo siento, no hay posibilidad. Tenga en cuenta también que 2 mutaciones dentro de un solo gen / proteína, y entre dos proteínas distintas que interactúan, plantean un problema de predicción similar para nosotros. La pregunta es, ¿cómo interactúa una mutación con otras mutaciones? No hace mucha diferencia si la segunda mutación está en el mismo gen o no. Debido a que los datos experimentales son más abundantes para la manipulación de proteínas individuales, continuaré mi explicación al respecto.
Cuanto más sepa sobre el mecanismo subyacente, mejor podrá decir qué tipo de interacción es probable. Por ejemplo, si se producen dos mutaciones en una sola proteína, y están espacialmente cercanas en la proteína plegada, podemos esperar que si las nuevas mutaciones crean un desequilibrio de carga que no existía antes, probablemente dañará la función de la proteína. Imagine que uno tiene carga positiva y el otro negativo. Si mutas el positivo en uno negativo, puedes esperar que sea malo. Lo mismo con mutar el negativo en uno positivo. Pero si mutas ambos al mismo tiempo (positivo-> negativo y negativo-> positivo en la otra posición), has recurrido al balance de carga y podría ser que hayas rescatado (o incluso mejorado) el rendimiento del proteína. Así es como, dado el mecanismo subyacente, puede esperar racionalmente un resultado particular tan probable.
- ¿Por qué la mayoría de las órdenes de animales tienen varias especies de intelecto similar, excepto los humanos? ¿Por qué otras especies no se unen a nuestro método probado de evolución?
- ¿No hay ejemplos de mutaciones genéticas que agreguen información a un genoma?
- ¿Cuáles son las desventajas de ser un estudiante graduado de ecología / biología evolutiva?
- ¿Cuáles son las adaptaciones de un camaleón a su entorno?
- ¿Podría la introducción de una forma de vida en Venus cambiar la evolución de la atmósfera de los planetas para que sea más hospitalaria para toda la vida?
Otra forma de predecir los efectos de los mutantes dobles es observar una gran cantidad de mutaciones y aprender cómo dos sitios en el genoma están (cor) relacionados (a través de su efecto, en lugar de la causa). La buena noticia es que actualmente es relativamente barato hacer una modificación genética y medir sus efectos fenotípicos. No es lo suficientemente barato como para que podamos producirlo para cualquier proteína objetivo, pero para proteínas simples, tales datos están disponibles. Con estos datos, podemos entrenar modelos estadísticos para usar datos de mutación única para inferir los efectos de mutantes dobles.
Incluso podemos inferir los “efectos relativos” (positivos / negativos) de una mutación sin medir el rasgo que representa . Este documento: Los efectos de mutación predichos a partir de la co-variación de secuencia, utiliza un modelo generativo que está entrenado en una alineación de secuencia múltiple (una colección de secuencias relacionadas evolutivamente alineadas juntas) para adivinar si un cambio simple o doble en una secuencia es beneficioso o perjudicial .
Para ilustrar la idea clave detrás de este método, imagine una alineación de secuencia contra una “secuencia de referencia” (esa es la secuencia que le gustaría mutar). Estas son secuencias que de alguna manera se han conservado a través de la evolución, y significa que su disposición particular de aminoácidos es “viable”.
Podemos ver, por ejemplo, que las columnas (posiciones) 1 y 6 están completamente conservadas (independientes de otras). Probablemente, significa que no debe cambiar este aminoácido, independientemente de lo que sean los demás. Basado en esta intuición, un modelo estadístico “independiente”, aprende la distribución de aminoácidos en cada columna, y atribuye probabilidades a cada secuencia en consecuencia. Una columna que está completamente conservada solo permite un único tipo de aminoácido (con probabilidad 1 y cero en otro lugar).
[matemáticas] P (\ text {secuencia}) = \ text {Normalized} (\ sum_i h_i \ text {amino-acid} _i) [/ math]
Donde la “probabilidad” de una secuencia (que es un indicador de cuán buena es), se calcula sumando la probabilidad de su aminoácido [math] h_i [/ math] en la posición particular [math] i. [/ matemática] Aprendemos la [matemática] h_i [/ matemática] al observar muchas secuencias y encontrar qué aminoácidos en particular son probables para la posición [matemática] i. [/matemáticas]
Pero hay más que aprender de estos datos. Si comenzamos a mirar las interacciones por pares a lo largo de la secuencia, por ejemplo, parece que las posiciones 3 y 10 tienen una interacción por pares ya que D siempre está emparejado con Q, y W siempre está emparejado con A (esto sería omitido por un modelo independiente) . Entonces podemos actualizar el modelo anterior agregando otro conjunto de coeficientes que aprendemos de los datos.
[matemáticas] P (\ text {secuencia}) = \ text {Normalized} (\ sum_i h_i \ text {amino-acid} _i + \ sum_ {i, j} J_ {i, j} aa_i aa_j) [/ math]
Ahora también tenemos que aprender [matemáticas] J_ {i, j} [/ matemáticas], que es el coeficiente que captura la codependencia de las posiciones [matemáticas] i, j. [/ Matemáticas] Aprender la normalización adecuada (y los coeficientes ) es un problema desafiante computacionalmente. Pero hay un montón de trucos para aprenderlos de manera eficiente (ver: https://arxiv.org/pdf/1211.1281.pdf).
Se espera que las cosas que se han conservado juntas a través de la evolución funcionen bien juntas. Se espera que las cosas que nunca aparecieron juntas en la historia evolutiva funcionen mal juntas.
Una vez que hayamos aprendido este modelo generativo, podemos alimentarlo con nuevas secuencias y tener una idea de cuán “probable” (como usted preguntó) es un par de mutaciones juntas. Esto también proporciona un proxy para decir que espera que un par de mutaciones mejoren alguna función que asocie con esa proteína.
Si observa el rendimiento de este método, no siempre funciona demasiado bien. Necesita ricos datos evolutivos, e incluso entonces, las predicciones son ~ 0.6 (correlación de rango) para los mejores conjuntos de datos pronosticados.
Esta es una forma larga de decir que no es completamente al azar, pero es difícil calcular el efecto de las combinaciones de mutaciones, y muchas personas inteligentes están trabajando en ello.
Descargo de responsabilidad: acabo de mostrarle una muestra de un método que se utiliza en el campo. Hay muchos otros enfoques de la genética de poblaciones que conozco menos y son demasiado para una sola respuesta, por lo que esta no es una imagen completa.