Hay dos problemas fundamentales que está preguntando al mismo tiempo.
Estructura de predicción de proteínas : es la tarea de predecir la forma de la estructura final plegada (utilizando la estructura de rayos X / RMN como punto de referencia). Estos enfoques suelen utilizar algún tipo de alineación heurística / estructural. Rosetta (Baker Lab) utiliza un enfoque basado en fragmentos que, para resumir, trata de reconstruir una estructura de proteínas utilizando una biblioteca masiva de fragmentos de péptidos. Por lo general, a las personas en este campo realmente no les importa cómo una proteína llega a su estado final.
Simulación de plegamiento de proteínas : es un problema muy diferente y, en cierto sentido, puede verse como un superconjunto del problema anterior. Es decir, si uno puede plegar por completo una proteína en un tiempo razonable, entonces obviamente puede derivar su estructura. Sin embargo, en el plegamiento de proteínas nos importa mucho más que solo la estructura. Nos preocupamos por la dinámica subyacente del sistema. Para lograr esta comprensión, los científicos generalmente simulamos (usando física) el sistema de interés en escalas de tiempo insanas. Los problemas son:
- ¿Qué es mejor, biotecnología o arquitectura?
- ¿Puedo obtener una admisión en VIT BIOtech si mi rango es de alrededor de 25k?
- ¿Aproximadamente cuántos mutantes artificiales hay en el mercado?
- ¿Hay un curso de biotecnología en la Universidad Jain, Bangalore?
- ¿Qué startups de biotecnología crees que están de moda en Silicon Valley?
1. Los campos de fuerza son “malos”, pero están mejorando. “Validación sistemática de campos de fuerza de proteínas contra datos experimentales” es un buen artículo para leer. Los parámetros del campo de fuerza son
2. Lleva mucho tiempo generar las trayectorias (los caminos que emprende una proteína). Se han sugerido numerosos enfoques, incluido el muestreo de cientos de miles de trayectorias a la vez (Folding @ Home) o la simulación de una sola trayectoria extremadamente larga (Anton). Tienen diferentes usos. En general, el cuello de botella más grande en la simulación MD es la evaluación de las interacciones electrostáticas por pares. Las implementaciones ingenuas requieren tiempo O (N ^ 2), los métodos basados en malla de partículas pueden lograr esto en tiempo O (N log N). Todos los demás pasos en MD (integración numérica, actualizaciones de posición, actualizaciones de restricciones, todo se puede lograr en aproximadamente el tiempo O (N)).
3. Análisis e interpretación de los datos. Esta es realmente muy delicada. Hay muchas formas diferentes de diseccionar y analizar una trayectoria. La definición de una forma “mínima” o “convexa”, según su terminología, no se generaliza fácilmente a un espacio dimensional superior. (Considere la matriz de Hesse de una función definida en un espacio de 1000 dimensiones versus 2 dimensiones). Editar: Debería elaborar más sobre este aspecto. Actualmente, estimaría que aproximadamente el 50% de toda la investigación de simulación moderna se centra en el análisis. Algunos ejemplos son la agrupación (kcenters, kmeans, etc.) como un medio para el espacio de estado de grano grueso, la construcción de modelos de estado de Markov para determinar las estadísticas de población, etc. Recomiendo mirar MSMBuilder para ver un ejemplo de lo complicado que puede ser.