Bioinformática: ¿Cuáles son las métricas de distancia de edición más comunes utilizadas en la alineación del ADN?

Esa es una gran pregunta y depende de muchas cosas. Desearía que hubiera una respuesta fácil, pero en mi experiencia no hay una “mejor” distancia de edición que pueda usar. Se basa más en la probabilidad de mutación en una región determinada y, a veces, esto es incluso desconocido. Yo (y otros) hemos resuelto esto en el pasado mediante el uso de un sistema de puntuación que puntúa las alineaciones a diferentes distancias de edición.

En este sistema, hace varias alineaciones y las puntúa en función del número de bases que coinciden. Por ejemplo, match = 1, mismatch = 0, indel = 0 pueden ser puntajes para usar. Porque a menudo es difícil ver los resultados, que es una lista de cambios para hacer que una cadena de ADN sea igual a la otra.

ATGCA-TTTA
ATGTACTT-A

Eso es alinear las dos secuencias insertando ritmos para que sean más similares en columnas (- indica que se agregó un espacio). Para determinar “más similar”, utiliza el sistema de puntuación. El problema es dónde está realizando biología computacional y la solución óptima es la solución más probable, pero no necesariamente la solución “correcta” como en la evolución real. Este es un problema constante en bioinformática, pero es parte de su ciencia, así que acostúmbrese a eso: para eso está el trabajo húmedo.

El mejor sistema de puntuación es match = + 1, discordancia = -1, indel = -1. Este es el “modelo de brecha lineal” porque el costo de una brecha de indeles consecutivos es proporcional a su longitud. Calcular esto se convierte en un problema de programación dinámica porque requiere retroceder. En general, encontrará una buena alineación, pero en algunos casos no. Luego debe usar match = +1, incompatch = -1, gap open = -5, gap extension = -1.

Ahora tenemos tres sistemas de puntuación para la alineación, ejecuta los tres utilizando un espacio de Hamming de longitud de secuencia * 0.9 a longitud de secuencia * 1.1 (una vez más, estos números son bastante arbitrarios), la puntuación se ejecuta en los tres sistemas de puntuación y toma el puntuación más alta. Nuevamente, esa es la respuesta más probable, pero puede que no sea correcta.