La alineación de secuencias es un campo rico; Ciertamente, (y cualquier estudiante del campo) es una grave injusticia pensar que solo es un análisis de cadenas. Debe preguntar por qué está alineando las dos secuencias y los aspectos clave de la naturaleza de las secuencias. De lo contrario, es poco probable que obtenga la mejor respuesta a su pregunta. Las expresiones regulares generalmente no son adecuadas para estos problemas, porque las alineaciones permiten niveles desconocidos de desajustes en su consulta.
Por ejemplo, una división importante en los algoritmos de alineación es si son locales o globales. Las alineaciones locales encuentran la mejor alineación regional, mientras que las alineaciones globales requieren que se use toda la secuencia. Otra división más; podemos alinearnos localmente con respecto a uno secuenciado y globalmente con respecto al otro. Dependiendo de su problema, las alineaciones local-local, local-global o global-global pueden ser correctas. BLAST realiza alineaciones locales-locales.
Diferentes algoritmos de alineación pueden modelar cosas diferentes. Por ejemplo, puedo tener un alineador que alinee dos secuencias de ADN de una manera simple. Otro puede alinear las secuencias asumiendo que uno es un ADN genómico y el otro es un ADNc, lo que permite a los intrones como un tipo especial de brecha. Otro puede crear la mejor alineación con la posibilidad de que las secuencias lineales representen moléculas circulares. Incluso podríamos encontrar el mejor conjunto de alineaciones que permitan que una sea una permutación de bloque de la otra secuencia.
- Soy adoptado. ¿Qué prueba de ADN es la mejor para encontrar mi origen étnico / registros médicos?
- ¿Hitler realmente tiene ADN árabe y judío?
- ¿Cómo se une un ARN monocatenario a un ADN bicatenario para formar una estructura triple?
- Cómo eliminar el fosfato del ADN de mi cuerpo
- ¿Cuál es la mejor manera de compartir secuencias de ADN entre mis colegas en el laboratorio?
Los alineadores nunca deben tratarse como simples cajas negras. Siempre tienen parámetros libres que pueden afectar críticamente las alineaciones generadas. Por ejemplo, muchos modelos de alineación con cuatro parámetros: un puntaje de coincidencia, un puntaje de desajuste, una penalización por apertura de hueco y una penalización por cierre de hueco. Pero otros permiten una matriz de puntajes para coincidencias / desajustes. Por ejemplo, si está buscando elementos involucrados en la hibridación de ARN-ARN, no desea penalizar las alineaciones de G a T de la misma manera que penalizaría las alineaciones de C a T, ya que G puede emparejarse con T en el ARN.
La memoria y el cálculo también pueden ser importantes a tener en cuenta. La familia de programas BLAST es ampliamente utilizada, pero es un simple alineador local y utiliza la heurística para acelerar la búsqueda; no se garantiza encontrar la mejor alineación entre secuencias. Smith-Waterman, está garantizado para encontrar la mejor alineación bajo un conjunto de parámetros dado. Las implementaciones de Smith-Waterman están ampliamente disponibles (si te tomas en serio la biología computacional, te recomiendo que escribas la tuya no para usarla sino para comprender realmente el algoritmo). La implementación obvia de Smith-Waterman requiere memoria proporcional al producto de las longitudes de las dos secuencias; Esto puede ser un problema con las comparaciones a escala cromosómica. Hay una solución alternativa que intercambia memoria por tiempo de ejecución adicional.
BLASTN (BLAST para las comparaciones de nucleótidos a nucleótidos) es un programa muy útil, pero inadecuado para muchas tareas. No es bueno para encontrar motivos cortos o para comparar secuencias muy distantes. Elige tu herramienta para el trabajo