¿Cuánto tiempo hasta que sepamos las estructuras de todas las proteínas en el cuerpo humano?

Probablemente no tendremos la capacidad de plegar proteínas humanas de novo durante otros 30-40 años. Claro que podemos hacer algunas proteínas grandes, pero esas son principalmente proteínas solubles, no de membrana, no modificadas, mientras que una porción saludable de proteínas humanas no es ninguna de ellas.

El Human Protein Atlas monitorea alrededor de 15,000 genes codificadores de proteínas. El Proyecto Genoma Humano estima que hay alrededor de 20,000. También hay todas las diversas isoformas de empalme, pero supongamos que lo que estamos preguntando es cuándo llegaremos a resolver 20,000.

Si visitas PDB y seleccionas “Homo sapien” y “protein”, ¡obtenemos 20430 proteínas! ¡Entonces nuestro trabajo está hecho! Sin embargo, es probable que esto incluya varios miles de anticuerpos. Si aumentamos nuestro umbral para excluir proteínas con un 30% o más de similitud, ese número se reduce a 3.753 estructuras. Incluso entonces, simplemente en la primera página veo varias repeticiones y estructuras de RMN de proteínas truncadas.

RCSB PDB – Resultados de la consulta

Para darle una idea de qué tan atrasados ​​estamos en nuestros esfuerzos, puede verificar el estado de Protein Structure Factory, una instalación dedicada para resolver estructuras humanas que finalizó en 2007, no progresaron mucho.
Estado de PSF

Lo mismo ocurre con el Centro de Genómica Estructural Eucariota y el Consorcio de Genómica Estructural (Logros clave)

Ahora para los datos reales:

Según TargetTrack, hay

  • 24541 objetivos humanos
  • 13903 ADNc clonados
  • 10224 proteínas expresadas
  • 4329 proteínas purificadas
  • 1719 proteínas con difracción o datos de RMN
  • 1505 estructuras resueltas
  • 1458 estructuras en el pdb

Actualmente estamos a solo el 6% del camino al 99.99%.

No lo sabemos, pero necesitamos mejores modelos matemáticos. Como usted señala, la Ley de Moore es una gran restricción. Pero es fácil demostrar que no podemos llegar desde aquí, ya que usted dice que la complejidad crece exponencialmente. Hay muchos órdenes de magnitud entre dónde estamos y dónde debemos estar. La titina es la proteína más grande en humanos. Pesa aproximadamente 4 millones de Dalton, el peso de aproximadamente 4M de átomos de hidrógeno. Ahora podemos simular microsegundos de plegamiento para aproximadamente 70,000D de proteínas. Pero el conocimiento de la estructura realmente incluye la estructura dinámica, cómo las proteínas interactúan entre sí, muchas de estas interacciones son órdenes de magnitud más largas de lo que podemos simular hoy. Entonces, incluso si supiéramos la “estructura” como en geometría, todavía no tendríamos lo que necesitamos, que es la dinámica de interacción. ¡Entonces el desafío es más como N! complejidad de crecimiento no exponencial. Además de esto, está el papel de la Chaperona (proteína), que es enormemente compleja.

Sostengo en otra parte que este es un campo propicio para la emergencia, necesitamos nuevos modelos, no solo máquinas informáticas más rápidas. Como analogía cuando discutimos el comportamiento del gas y el líquido, usamos modelos emergentes, no modelos de partículas individuales. En este momento estamos en el nivel de partículas en la estructura de la proteína de mapeo.


Aquí hay una analogía intrigante con la exploración espacial . Puedo dar fe de que en la década de 1960 la creencia general era que pronto tendríamos colonias en otros planetas, y que viajaríamos habitualmente en el espacio, extraeríamos asteroides en el espacio, visitaríamos otros sistemas solares, etc. Incluso algunos científicos expresaron este optimismo, ya sea sincera o cínicamente para obtener más fondos, no lo sé.

Lo que la gente no recordaba era que el espacio es realmente muy vasto. Eso limita y limita cuánto podemos hacer y qué podemos hacer.

Lo mismo es cierto con la taxonomía funcional de proteínas. Excepto que ahora los límites no están dictados por la distancia espacial sino por la teoría de la complejidad computacional. Afirmo que no sabemos cuánto tiempo si alguna vez porque:
1) no conocemos la trayectoria de la ley de Moore a largo plazo
2) no sabemos exactamente si la computación cuántica u otras arquitecturas pueden ayudar a acelerar el análisis
3) no sabemos si el plegamiento y otras construcciones admiten simetrías de niveles superiores que podrían mejorar la computación, y
4) no tenemos buenas teorías sobre los límites de complejidad para los modelos actuales.