¿Cuáles son las ventajas / desventajas de usar la alineación de proteínas frente a la alineación de nucleótidos?

Alex dio una muy buena respuesta; Calificaría un poco sus puntos. Señaló que debido a la codificación redundante, muchas mutaciones de ADN “no importan”. Eso es ampliamente cierto porque la selección generalmente está al nivel de la proteína; sin embargo, si observa la evolución, los cambios silenciosos en el ADN pueden ser muy informativos porque pueden ayudar a determinar el nivel de mutación de la deriva de fondo, que no están seleccionados a favor o en contra. Luego puede usar este nivel de fondo para ayudar a cuantificar la cantidad de selección positiva o negativa que está ocurriendo (dN / dS).

También hay casos en los que se seleccionan cambios silenciosos (p. Ej., El uso de codones es un factor seleccionable) pero eso es, probablemente, más débilmente seleccionado que el uso de aminoácidos.

En cualquier caso, las alineaciones de aminoácidos son un buen punto de partida, pero si tiene las secuencias de ADN disponibles, generalmente las vería también para obtener más información.

A menudo, en biología queremos comparar proteínas relacionadas u homólogas de dos o más organismos para ver qué tan estrechamente relacionadas están o para buscar residuos de aminoácidos altamente conservados que puedan sugerir un papel estructural o funcional importante. Otras veces, queremos comparar una proteína de interés con proteínas similares en una base de datos para predecir una función basada en las funciones de sus homólogos relacionados evolutivamente. Por supuesto, dependerá de lo que quiera obtener de su alineación, pero por una variedad de razones, la alineación de proteínas es casi siempre preferible a la alineación de ADN.

1. Los codones redundantes significan ~ 1/3 de las mutaciones de ADN a menudo no importan. La alineación del ADN no tiene en cuenta la redundancia de los codones de aminoácidos. Las seis secuencias de estos tres pares de bases codifican para serina: TCT, TCC, TCA, TCG, AGT, AGC, pero en una alineación de secuencia de ADN, una mutación de tres nucleótidos de TCA a AGT (una mutación silenciosa que no tiene impacto en la secuencia de proteínas ) obtendría menos de una sola mutación de nucleótidos de TCA a TAA (una mutación del codón Ser-Stop que alteraría enormemente la proteína. Rara vez existe una presión evolutiva significativa para evitar una mutación silenciosa en una secuencia de proteínas, por lo que la mutación no debe contar mucho en contra de la puntuación de homología de proteínas.

2. Un alfabeto de menor tamaño requiere más coincidencias. Las secuencias de ADN están hechas con un alfabeto de cuatro nucleótidos, mientras que la mayoría de las proteínas tienen veinte. Es más fácil lograr una alineación estadísticamente significativa al comparar un alfabeto más grande de caracteres porque es mucho menos probable que obtenga una coincidencia por casualidad.

3. La base de datos de ADN está abarrotada de secuencias no codificantes. Las bases de datos de ADN contienen mucho más que secuencias que codifican proteínas (de hecho, solo ~ 1.5% del genoma humano codifica proteínas). Si está tratando de alinear dos secuencias de proteínas, tiene más sentido limitar su alineación a las proteínas en lugar de escanear todo el genoma. Esto es especialmente importante cuando se buscan secuencias cortas que podrían alinearse con regiones no codificantes del ADN por casualidad.

4. No todas las mutaciones de aminoácidos son igualmente dañinas para la estructura de la proteína. La alineación del ADN no tiene en cuenta las estructuras más similares de algunos aminoácidos a otros y el papel funcional similar que tienen en la proteína. La isoleucina y la valina tienen estructuras similares, ambas tienen cadenas laterales hidrófobas y difieren solo por la adición de un carbono adicional en la isoleucina. No es probable que una mutación de una a la otra cambie sustancialmente la estructura de la proteína como lo harían algunas otras mutaciones, pero una alineación de la secuencia de ADN tratará esta mutación de la misma manera que cualquier otra. En una alineación de secuencia de proteínas, en lugar de no dar puntos para una mutación Ile-Val, se usa una matriz BLOSUM (o similar) para asignar probabilidades a cada posible sustitución de aminoácidos, también teniendo en cuenta las frecuencias relativas de los dos aminoácidos. A los pares de aminoácidos estructural o funcionalmente similares se les asignan puntuaciones de sustitución más altas, lo que indica una mayor probabilidad de que la mutación ocurra en dos proteínas homólogas (o evolutivamente relacionadas) de las que se puede explicar por casualidad. (Ver matriz BLOSUM62 a continuación)

Dado que no todas las regiones funcionales importantes en la secuencia de ADN codifican proteínas, hay algunas situaciones en las que solo puede usar la alineación de la secuencia de ADN. Para comparar regiones en el ADN que codifican moléculas de ARN funcionales en lugar de proteínas o regiones que sirven como sitios de unión para factores de transcripción, no hay una secuencia de proteínas con la que trabajar. No obstante, cuando puede elegir entre la alineación de un gen de ADN o su proteína correspondiente, casi siempre es mejor reducir los posibles homólogos con una alineación de proteínas, y luego usar la alineación de ADN para comparar las secuencias restantes si una alineación es útil ( como en la respuesta de Ian York sobre la cuantificación de la deriva genética).

Más información sobre la alineación de secuencias aquí: http://www.ncbi.nlm.nih.gov/book

Muy buenas respuestas tanto de Alex como de Ian. Quiero agregar un poco de información. Realmente, qué tipo de alineación debe usar depende completamente de lo que está tratando de hacer. Todos los problemas de alineación no son iguales. Si tiene una secuencia de ácido nucleico y desea encontrar secuencias homólogas o relacionadas de otra manera, entonces debe usar una alineación proteína-proteína como sugieren Alex e Ian. (En realidad, debe usar una alineación especial de ácido nucleico llamada tblastx, sobre la cual más en un momento). Pero si tiene una secuencia de origen conocido pero ubicación desconocida en la secuencia de origen, por ejemplo, si tiene una secuencia leída de un paciente y desea alinear esa secuencia leída con el genoma de referencia para ver si hay SNP o mutaciones, entonces una alineación de proteínas es excesiva y será mejor usar una búsqueda de ácido nucleico como BLAST o incluso BLAT (que es mucho más rápido y mucho menos sensible que BLAST).

Esto se debe a que la dificultad computacional de un problema de alineación es proporcional a la sensibilidad deseada del análisis. Si espera que las coincidencias deseadas con su consulta sean bastante divergentes, con muchos reemplazos, inserciones, huecos, etc., necesita un análisis sensible como BLAST, que tendrá en cuenta muchas alineaciones posibles diferentes, lo que requiere más Ciclos de CPU. Sin embargo, si espera que la coincidencia deseada sea casi idéntica a su consulta, con solo algunas discrepancias, como nuestro escenario clínico anterior, entonces no necesitará hacer un análisis muy sofisticado, porque habrá una alineación bastante obvia , y usted (o la computadora) lo sabrán cuando lo vean. En este caso, debe ejecutar un algoritmo simple como BLAT y obtener su respuesta en medio segundo en lugar de ver cómo se actualiza su boleto BLAST por quién sabe cuánto tiempo.

Probablemente lo sepas, pero quería agregar que mi modo de alineación BLAST favorito es tblastx, que combina la versatilidad y el gran alcance de la base de datos de una alineación de ácido nucleico con la sensibilidad de una alineación de proteínas. Puede seleccionar tlbastx desde la página de consulta BLAST. La base de datos de destino recomendada es nt. Tblastx funciona traduciendo su consulta de ácido nucleico en una secuencia de proteínas en los 6 marcos de lectura (3 hacia adelante, 3 en reversa) y luego realiza una alineación de proteínas contra una base de datos de ácido nucleico que también se ha traducido en los 6 marcos de lectura. Las alineaciones se devuelven como secuencias de ácido nucleico con traducción del marco de lectura relevante.

¿Por qué es esto bueno? Bueno, como Ian y Alex notaron, las alineaciones regulares de ácido nucleico (como BLAST regular) no siempre son lo suficientemente sensibles como para encontrar homólogos moderadamente o distantemente divergentes de una secuencia de consulta. Las alineaciones de proteínas como blastx pueden hacerlo mejor, por razones que A y yo hemos explicado. Pero las alineaciones de proteínas tienen sus propios problemas, principalmente porque las bases de datos de secuencias de proteínas tienen problemas. Obviamente, es fácil secuenciar ácidos nucleicos, pero es muy difícil secuenciar proteínas. En consecuencia, casi todas las secuencias de proteínas en la mayoría de las bases de datos de proteínas (como la base de datos nr de NCBI) se derivan de traducciones de ADNc, o se traducen automáticamente de secuencias de ADN mediante algoritmos de predicción de genes. *

Esto significa que la gran mayoría de las secuencias de proteínas presentes en la base de datos nr nunca se han observado en ningún laboratorio, y me imagino que para muchas de ellas ni siquiera tenemos evidencia sobre el nivel de ARN de que existan. Los algoritmos de predicción de genes son buenos, pero no son perfectos, por lo que hay muchos falsos positivos y muchos más falsos negativos. Para resumir, si está mirando un registro en una base de datos de secuencia de proteínas, a menos que ese registro corresponda a una proteína conocida en un organismo conocido, debe tomarlo con un grano de sal. Estas deficiencias son especialmente graves para las bases de datos que tienen muchas secuencias de origen desconocido, como la base de datos de metagenómica del NCBI, env_nt. (Sí, hay env_nr, pero una vez más la anotación de proteínas se realiza algorítmicamente).

Entonces, lo mejor de tblastx es que puede combinar la sensibilidad de una alineación de proteínas con el alcance y la integridad de una base de datos de ácido nucleico (cuyos registros están fuera de los secuenciadores y es de esperar que no hayan sido excesivamente destrozados por una computadora demasiado ambiciosa) . Por supuesto, no existe un almuerzo gratis: las alineaciones de proteínas ya son más complejas desde el punto de vista computacional que las alineaciones de ácido nucleico, y cada búsqueda de tblastx realiza 6 de ellas, por lo que un tblastx generalmente tomará> 2 veces más que un BLAST comparable. Definitivamente vale la pena la espera.

* Una excepción particularmente importante: la base de datos del Protein Databank, PDB, contiene solo proteínas con estructuras resueltas, lo que obviamente corta la mayor parte de la rifraff, pero también resulta en un cuello de botella extremadamente apretado en la entrada a la base de datos, evitando que PDB sea de mucha utilidad en la mayoría de los BLAST de homología. Si desea pasar al siguiente nivel de sensibilidad y usar algo como HMMER o Robetta, PDB será muy útil, pero esa es otra historia para otro momento.

Al estudiar el potencial de homología de secuencia, analogía y paralogía, obtendría información sobre aspectos interesantes de la conservación o la falta de ella. Eso puede ayudarnos con actividades como la clasificación y agrupamiento de familias (Rfam y Pfam), anotaciones (funcionales y estructurales), búsquedas en bases de datos y muchas otras.

Si bien la similitud entre secuencias es interesante, también lo son las diferencias. Piense en isoformas y polimorfismos de un solo nucleótido.

Otro tercer campo de utilidad para la alineación de secuencias es el mapeo de las lecturas de NGS con el fin de comparar entre condiciones, por ejemplo, donde se hipotetizan los resultados genómicos y proteómicos.

Para tener una idea de mi respuesta a su pregunta, permítame comparar brevemente la alineación de proteínas con la de los ARN no codificantes estructurales. La última es una especie específica en el mundo de nucleótidos contorneados de alta notoriedad por falta de conservación de la secuencia.

En las proteínas, la alineación es sencilla, el rendimiento de los algoritmos es muy satisfactorio y el umbral para llamar a las proteínas homólogas es algo relajado en comparación con los ARN estructurales. Esto se debe a que las mutaciones de proteínas en el nivel de secuencia primaria son más conservadoras en comparación con las de los ARN. Los cambios mutacionales leves en un solo aminoácido en una secuencia de proteínas pueden ser todo lo que se necesita para la marca entre la salud y la enfermedad. Un ejemplo de hemoglobina en la anemia es clásico. Entonces, para llamar a dos o más proteínas homólogas, similares o idénticas, analizamos su puntuación de alineación y similitud. Un umbral del 35% es suficiente para la homología en este caso.

Los ARN no codificantes, por otro lado, son muy propensos a cambiar sus secuencias primarias mucho más rápido y aunque algunos ncRNA pueden parecer tener secuencias totalmente diferentes, aún pueden ser parte de la misma familia. La estructura de los ARN relacionados es particularmente menos variable a pesar de esto. La conservación de la secuencia ocurre en el nivel de Dinucleótidos, donde si los ncRNA tienen potencial de plegamiento, dos nucleótidos distantes exhiben complementariedad de base y eso significa que pueden plegarse entre sí con los nucleótidos encerrados entre los que sobresalen para formar tallos o la horquilla que los ncRNA tocan y adjuntar a sus objetivos con.

Entonces, para la integridad del ncRNA, una mutación en uno de los dinucleótidos puede significar que su par de bases a pocas bases de distancia puede variar para compensar el cambio porque el ARN necesita esto para preservar su potencial de plegamiento. Por lo tanto, los algoritmos que uno usa para el alineamiento de proteínas y el análisis de filogenia pueden no ser totalmente útiles para alinear ncRNA aparentemente distintos pero estructuralmente relacionados.

Los modelos de covarianza se utilizan para realizar la búsqueda de secuencia de consenso de ARN ya que consideran la covarianza de dos nucleótidos distantes juntos. De esa manera, si muchos ARN en la alineación exhiben un patrón similar de covarianza, pueden clasificarse como relacionados. También se sugiere que un umbral de similitud no inferior al 60% entre dos ncRNAs también es necesario para que tales clasificaciones sean genuinas.