Muy buenas respuestas tanto de Alex como de Ian. Quiero agregar un poco de información. Realmente, qué tipo de alineación debe usar depende completamente de lo que está tratando de hacer. Todos los problemas de alineación no son iguales. Si tiene una secuencia de ácido nucleico y desea encontrar secuencias homólogas o relacionadas de otra manera, entonces debe usar una alineación proteína-proteína como sugieren Alex e Ian. (En realidad, debe usar una alineación especial de ácido nucleico llamada tblastx, sobre la cual más en un momento). Pero si tiene una secuencia de origen conocido pero ubicación desconocida en la secuencia de origen, por ejemplo, si tiene una secuencia leída de un paciente y desea alinear esa secuencia leída con el genoma de referencia para ver si hay SNP o mutaciones, entonces una alineación de proteínas es excesiva y será mejor usar una búsqueda de ácido nucleico como BLAST o incluso BLAT (que es mucho más rápido y mucho menos sensible que BLAST).
Esto se debe a que la dificultad computacional de un problema de alineación es proporcional a la sensibilidad deseada del análisis. Si espera que las coincidencias deseadas con su consulta sean bastante divergentes, con muchos reemplazos, inserciones, huecos, etc., necesita un análisis sensible como BLAST, que tendrá en cuenta muchas alineaciones posibles diferentes, lo que requiere más Ciclos de CPU. Sin embargo, si espera que la coincidencia deseada sea casi idéntica a su consulta, con solo algunas discrepancias, como nuestro escenario clínico anterior, entonces no necesitará hacer un análisis muy sofisticado, porque habrá una alineación bastante obvia , y usted (o la computadora) lo sabrán cuando lo vean. En este caso, debe ejecutar un algoritmo simple como BLAT y obtener su respuesta en medio segundo en lugar de ver cómo se actualiza su boleto BLAST por quién sabe cuánto tiempo.
Probablemente lo sepas, pero quería agregar que mi modo de alineación BLAST favorito es tblastx, que combina la versatilidad y el gran alcance de la base de datos de una alineación de ácido nucleico con la sensibilidad de una alineación de proteínas. Puede seleccionar tlbastx desde la página de consulta BLAST. La base de datos de destino recomendada es nt. Tblastx funciona traduciendo su consulta de ácido nucleico en una secuencia de proteínas en los 6 marcos de lectura (3 hacia adelante, 3 en reversa) y luego realiza una alineación de proteínas contra una base de datos de ácido nucleico que también se ha traducido en los 6 marcos de lectura. Las alineaciones se devuelven como secuencias de ácido nucleico con traducción del marco de lectura relevante.
¿Por qué es esto bueno? Bueno, como Ian y Alex notaron, las alineaciones regulares de ácido nucleico (como BLAST regular) no siempre son lo suficientemente sensibles como para encontrar homólogos moderadamente o distantemente divergentes de una secuencia de consulta. Las alineaciones de proteínas como blastx pueden hacerlo mejor, por razones que A y yo hemos explicado. Pero las alineaciones de proteínas tienen sus propios problemas, principalmente porque las bases de datos de secuencias de proteínas tienen problemas. Obviamente, es fácil secuenciar ácidos nucleicos, pero es muy difícil secuenciar proteínas. En consecuencia, casi todas las secuencias de proteínas en la mayoría de las bases de datos de proteínas (como la base de datos nr de NCBI) se derivan de traducciones de ADNc, o se traducen automáticamente de secuencias de ADN mediante algoritmos de predicción de genes. *
Esto significa que la gran mayoría de las secuencias de proteínas presentes en la base de datos nr nunca se han observado en ningún laboratorio, y me imagino que para muchas de ellas ni siquiera tenemos evidencia sobre el nivel de ARN de que existan. Los algoritmos de predicción de genes son buenos, pero no son perfectos, por lo que hay muchos falsos positivos y muchos más falsos negativos. Para resumir, si está mirando un registro en una base de datos de secuencia de proteínas, a menos que ese registro corresponda a una proteína conocida en un organismo conocido, debe tomarlo con un grano de sal. Estas deficiencias son especialmente graves para las bases de datos que tienen muchas secuencias de origen desconocido, como la base de datos de metagenómica del NCBI, env_nt. (Sí, hay env_nr, pero una vez más la anotación de proteínas se realiza algorítmicamente).
Entonces, lo mejor de tblastx es que puede combinar la sensibilidad de una alineación de proteínas con el alcance y la integridad de una base de datos de ácido nucleico (cuyos registros están fuera de los secuenciadores y es de esperar que no hayan sido excesivamente destrozados por una computadora demasiado ambiciosa) . Por supuesto, no existe un almuerzo gratis: las alineaciones de proteínas ya son más complejas desde el punto de vista computacional que las alineaciones de ácido nucleico, y cada búsqueda de tblastx realiza 6 de ellas, por lo que un tblastx generalmente tomará> 2 veces más que un BLAST comparable. Definitivamente vale la pena la espera.
* Una excepción particularmente importante: la base de datos del Protein Databank, PDB, contiene solo proteínas con estructuras resueltas, lo que obviamente corta la mayor parte de la rifraff, pero también resulta en un cuello de botella extremadamente apretado en la entrada a la base de datos, evitando que PDB sea de mucha utilidad en la mayoría de los BLAST de homología. Si desea pasar al siguiente nivel de sensibilidad y usar algo como HMMER o Robetta, PDB será muy útil, pero esa es otra historia para otro momento.