¿Por qué el plegamiento de proteínas es una operación informática tan costosa?

La razón de la intensidad computacional de simular el plegamiento de proteínas es la diferencia en las escalas de tiempo entre el movimiento de los átomos y el plegamiento de las proteínas. Déjame ser más específico. En una simulación de plegamiento de proteínas, la computadora almacena una representación de la disposición espacial de los átomos en una proteína desplegada. Utiliza las leyes básicas del movimiento newtoniano y una aproximación de las fuerzas extendidas sobre los átomos para calcular hacia dónde se moverán los átomos en un punto muy cercano en el futuro. Después de actualizar las ubicaciones de los átomos y las fuerzas que actúan sobre ellos, la simulación da otro “paso” volviendo al principio y calculando dónde se mueven los átomos a continuación. Las proteínas de tamaño razonable tardan, en promedio, milisegundos o segundos en plegarse, sin embargo, la vibración de los enlaces atómicos ocurre en la escala de tiempo de femtosegundos (eso es 0.000000000000001 de un segundo). Por lo tanto, si bien cada “paso” de una simulación de plegamiento de proteínas solo puede simular aproximadamente 1 femtosegundo, la cantidad de tiempo que uno debe simular para tener una posibilidad decente de observar el plegamiento de proteínas es mucho mayor que eso. Entonces, uno tendría que simular billones o billones de pasos para plegar la proteína. Dado que cada paso requiere miles o millones de operaciones de punto flotante, puede ver cómo el cálculo completo llevará mucho tiempo. Utilizando un solo procesador Intel i7 de gama alta, mi estimación de la parte posterior del sobre es siglos de tiempo de CPU para simular un plegamiento de proteínas. Ahora, hay algunos trucos que los científicos usan para acelerar las cosas. Primero, la mayoría de los científicos estudian pequeñas proteínas que se pliegan rápidamente (hay muchas que se pliegan en escalas de tiempo de microsegundos o sub-microsegundos), que tomarán menos pasos para plegarse y tendrán menos átomos para simular. En segundo lugar, a menudo usan representaciones reducidas en las que la posición de cada aminoácido se simula como solo unas pocas posiciones en lugar de incluir cada átomo. Tercero, estas simulaciones generalmente se ejecutan en grandes grupos con miles de núcleos. Con todas estas advertencias, el problema del plegamiento de proteínas no es tan imposible como parece a primera vista, aunque todavía representa uno de los “santos griales” de la biología computacional.

Las estructuras de proteínas están determinadas por varias fuerzas:
[Imagen de LadyofHats Fuente: http://en.wikipedia.org/wiki/Fil
1. La estructura primaria es la columna vertebral formada por aminoácidos unidos linealmente por enlaces peptídicos.
2. La estructura secundaria (que consiste en hélices y láminas) está formada por enlaces de hidrógeno entre los elementos del esqueleto y los grupos carbonilo en la periferia.
3. Fuerzas terciarias (plegamiento) causadas por fuerzas físicas débiles llamadas fuerza de Van der Waals, enlaces iónicos, etc.
4. La estructura cuaternaria está formada por la composición de dos o más polipéptidos.

Los datos estructurales normalmente se representan como gráficos que comprenden nodos y aristas. La esencia de la complejidad aquí es lo que el Prof.Srinath llama “dominio de estructura”. es decir, el número de tipos de nodos es pequeño, pero las formas en que pueden combinarse son muchísimas. Dado que las preguntas analíticas que involucran gráficos a menudo son reducibles a isomorfismo gráfico ( http://en.wikipedia.org/wiki/Gra …) y problemas de isomorfismo de subgrafo, que son bastante difíciles e involucran complejidades no polinomiales, el cálculo es prohibitivamente costoso.

(Descargo de responsabilidad y crédito: mi conocimiento de este campo es limitado y oxidado. Proviene de trabajar en AnMol, una plataforma analítica para datos estructurales, utilizada para bases de datos de proteínas, entre otras cosas. Se basó en el trabajo de investigación de Bases de Datos Gráficas del Prof. Srinath Srinivasa en el que tuve un papel.)

Otra forma de ver la inmensidad de este problema es observar cuán difícil es incluso una versión simplificada. Por ejemplo, incluso una pequeña proteína de 16 residuos tiene un número desalentador de posibles secuencias. Con 21 aminoácidos eucariotas, ¡eso es [matemáticas] 21 ^ {16} [/ matemáticas] posibilidades!

Qué significa eso? Solo para mostrar o mostrar una LISTA simple de estas combinaciones llevaría 1,500 años con un Intel Core i7 3820, que, hoy, es un procesador muy rápido. El cálculo: [matemáticas] \ frac {21 ^ {16} \, secuencias} {3.8 \, gHz * 8 \, \ frac {instrucciones} {ciclo}} \ aprox 1500 \; años [/ matemáticas]

Si observamos un ejemplo más realista de una proteína con 350 residuos, los números se vuelven absurdos [matemática] \ aproximadamente 10 ^ {341} [/ matemática], que toma las supercomputadoras más poderosas, más tiempo que el tiempo teórico restante en el universo .

En realidad no es tan complicado como podría pensar. Muchos grupos, como el de DE Shaw (compañía), persiguen la fuerza bruta, simulaciones de mucho tiempo que requieren una enorme potencia informática.

Otros grupos, como el grupo Free de Chicago, han desarrollado modelos de plegamiento de proteínas que requieren solo una máquina y tal vez 1 día de simulaciones.

Profesor liberado

Recientemente, utilizando algunas plataformas especiales como la supercomputadora ‘Anton’ (dedicada a las simulaciones MD), algunos grupos han podido realizar simulaciones de escala de tiempo de milisegundos. [correo electrónico protegido] , [correo electrónico protegido] son algunas plataformas que utilizan la potencia informática de las computadoras de las personas para ejecutar las simulaciones plegables.
Debido a los desafíos en las simulaciones MD de larga escala, muchos grupos usan la simulación Monte Carlo para buscar conformaciones de proteínas. Debido a la gran cantidad de grados de libertad en las proteínas, es realmente difícil obtener suficiente conformación para una proteína grande. Por lo tanto, estos métodos están muy limitados a proteínas pequeñas, aunque el modelado de homología puede ayudar con éxito en tales casos.