¿Cuáles son los problemas que los investigadores están abordando actualmente en biología computacional?

Cuantificación de datos de secuenciación de ARN
Una gran área de concentración para el desarrollo de algoritmos son las tuberías para contar el número de lecturas que provienen de cada transcripción en los datos de secuenciación de ARN. Básicamente, la cuantificación de la expresión génica. Debido a que las lecturas son cortas (generalmente de 100 pb o menos) y la gran mayoría de los genes se empalman alternativamente, es difícil determinar la mejor manera de cuantificar los niveles de transcripción. Existen algunos algoritmos que se usan ampliamente (Gemelos, HTSeq, etc.), pero es muy difícil validar cuán precisos son los métodos a escala de todo el genoma. Los métodos de normalización de RNA-seq también son un área de interés.

Métodos de integración de datos.
La biología de sistemas es un tipo de biología computacional que tiene como objetivo adoptar un enfoque holístico en el estudio de organismos mediante la integración de muchos tipos diferentes de datos (ADN, ARN, proteínas, levadura de dos híbridos, especificación de masas IP y lecturas fisiológicas de varios tipos) para Desarrollar una visión general pero también una visión integral de lo que está sucediendo dentro de un organismo. Las áreas comunes de interés son el modelado de redes de genes y vías de señalización, así como el modelado de redes sinápticas en el cerebro. Una de las partes más difíciles de hacer este tipo de investigación es descubrir la forma más precisa de integrar diferentes tipos de datos, especialmente cuando es cuantitativa. Por ejemplo, ¿cómo puede crear una relación entre los niveles de ARN y los niveles de proteínas? ¿Cómo puede relacionar los niveles de proteínas con los potenciales de membrana sináptica? Un enfoque se basa en las estadísticas bayesianas, donde esencialmente se relacionan los conjuntos de datos entre sí en función de los valores p de sus datos, creando un vector probabilístico para un resultado dado de los puntos de datos contribuyentes. Sin embargo, las personas con frecuencia personalizan su análisis para que coincida con su formato de datos y pregunta biológica. Entonces, la biología de sistemas definitivamente carece de estandarización en los métodos de análisis.

Identificar ciertos tipos de variaciones estructurales en el genoma.
Muchos de los problemas en biología computacional que se basan en datos de secuenciación de próxima generación se remontan a la corta duración de las lecturas, y el genotipado para variaciones estructurales no es una excepción. Las personas han estado trabajando en métodos para la identificación de inserciones y deleciones largas, translocaciones cromosómicas, duplicaciones segmentarias y otras variaciones genómicas a gran escala durante los últimos años. Los biólogos computacionales continúan mejorando los alineadores de secuencia y los algoritmos de genotipado disponibles para la secuenciación completa del genoma y el exoma. Actualmente, la mejor manera de obtener datos sobre grandes variaciones estructurales es a través de hibridación de ADN y métodos de secuenciación dirigida.

Predicción de estructura proteica
Generar estructuras de proteínas que tienen poca o ninguna homología con proteínas para las cuales las estructuras ya se han resuelto experimentalmente es extremadamente difícil. No puedo entrar en demasiados detalles sobre este, pero sé que definitivamente es un área que necesita una gran mejora.

Solo algunos de los temas de investigación a los que se aplican estos métodos (que no mencioné) :
Estudios de asociación de todo el genoma (GWAS) para encontrar mutaciones asociadas a la enfermedad
Identificación de mutaciones que impulsan la formación, crecimiento y metástasis de tumores.
Efectos de la microbiota intestinal y de la piel sobre la patogénesis a través de la secuenciación de microbiomas
Variación entre células individuales usando RNA-seq, particularmente en neuronas
Estructura secundaria de ARN pequeños (lncRNA, miRNA, snoRNA, etc.)
y muchos muchos mas