¿Se pueden tratar las secuencias de ADN como series temporales?

¡Decir ah! Me río de la respuesta del usuario de Anon.

Por supuesto, las secuencias de ADN pueden examinarse desde la 4ta dimensión. El ejemplo más conocido proviene del estudio de evolución a largo plazo de E. coli donde observaron la secuencia de ADN de E. coli durante más de 50 mil generaciones [1].

Desafortunadamente, encontrar cifras de acceso abierto legalmente compartibles de estos estudios es difícil, por lo que tendré que recurrir al uso de cifras del estudio de evolución de levadura “a largo plazo” [2].

Figura 4. Frecuencias alélicas de amplificación mth1-3 y HXT6 / 7 en la subpoblación amarilla.

El pie de figura básicamente se explica a sí mismo. Al observar el tiempo extra de ADN, puede ver que la frecuencia de mth1-3 y HXT6 / 7 cambia el tiempo extra y en realidad están correlacionados entre sí. Aquí “solo” observamos 400 generaciones.

Entonces, sí, puede ver la secuencia de ADN particularmente en regiones altamente mutantes en una serie de tiempo. Estoy bastante seguro de que con el volumen de datos de secuenciación que saldrá en el futuro cercano, habrá mucho más y probablemente podamos rastrear la progresión del cáncer a nivel molecular.

Este tipo de datos también es una gran razón por la cual los biólogos están muy molestos con las personas que no creen en la evolución .

[1] http://myxo.css.msu.edu/ecoli/
[2] http://www.plosgenetics.org/arti…

No sé cuáles fueron las intenciones del póster original, pero aquí está mi interpretación de la pregunta ‘¿Se pueden tratar las secuencias de ADN como series de tiempo?’

Una secuencia de ADN (ACGTACT …, por ejemplo) es una colección de bases que tienen un orden espacial definido (la A realmente precede a la C, que realmente precede a la G, etc., en la molécula de ADN, al menos si leemos la molécula linealmente, de 5 ‘a 3’, por ejemplo). Como la indexación es importante, nos hemos encontrado en el ámbito de los procesos estocásticos. Un proceso estocástico (al menos desde una perspectiva) es una colección indexada de variables aleatorias. El proceso estocástico más simple con el que la mayoría de los científicos está familiarizado es una muestra aleatoria, el llamado proceso estocástico IID (independiente e idénticamente distribuido) en el que cada instancia de la secuencia es independiente de la otra, y todas las secuencias tienen la misma distribución . Este es el pan de cada día de los cursos introductorios de estadística (principalmente porque las suposiciones de IID hacen que los problemas sean manejables). Pero la naturaleza no necesita comportarse de acuerdo con nuestras teorías de STAT100.

Un proceso estocástico general permite dependencias arbitrarias entre todas las variables aleatorias. Por ejemplo, podría ser el caso de que una A sea más probable que siga a una G (no sé la biología, pero he visto evidencia de que este tipo de cosas suceden en genomas reales), o una T para seguir una C. Si incorporamos este tipo de información en nuestro modelo de la secuencia de ADN, tenemos algo llamado una cadena de Markov de primer orden (la probabilidad de observar una base X solo depende de la base previa observada, y es independiente de todas las bases antes de que). Podemos extender esto a las cadenas generales de Markov de orden n, donde la probabilidad de observar una base particular solo depende de las bases b anteriores (b = 1 nos da la cadena de primer orden).

Otro modelo de proceso estocástico común utilizado para las secuencias de ADN es el modelo oculto de Markov (abreviado a menudo HMM). En este caso, tenemos un proceso conjunto, una secuencia de símbolos que observamos (en este caso, las bases) y una secuencia de ‘estado’ no observada que no observamos (pero que nos gustaría inferir). Esta es una técnica común para identificar genes dentro de una secuencia de ADN, donde el estado oculto transita entre ‘gen’ y ‘no gen’.

Estas ideas aplicadas a las secuencias de ADN son antiguas y se remontan al menos hasta la década de 1980. Ver, por ejemplo, * Modelos estocásticos de Gary Churchill para secuencias de ADN heterogéneas * (el primer resultado de Google para ‘secuencia de ADN de proceso estocástico’):

http://www.ncbi.nlm.nih.gov/pubm

Volviendo a las cosas a la pregunta original, una serie de tiempo es solo un tipo particular de proceso estocástico, donde el índice está en el tiempo. Una secuencia de ADN es un objeto muy similar, donde el índice está sobre el espacio. En ambos casos, generalmente estamos interesados ​​en las dependencias entre observaciones cercanas (y distantes), en el tiempo para series de tiempo y en el espacio para secuencias de ADN. Como tal, las herramientas de un campo a menudo se pueden aplicar al otro. Sin embargo, las herramientas de análisis de series de tiempo generalmente incluyen observaciones de valor real (el precio de cierre del mercado de valores en días consecutivos, el peso de un paciente durante un período de tiempo, etc.), mientras que las observaciones de secuencias de ADN implican observaciones discretas de un alfabeto fijo {A, G, C, T, U}. Como tal, debemos tener cuidado con cualquier intento de trasplantar herramientas directamente desde el análisis de series temporales hasta el análisis de secuencia de ADN.

No No hay ordenamiento temporal a lo largo de la secuencia de ADN que justifique eso.

Eso no quiere decir que algunos métodos de análisis de series temporales no puedan ser útiles, como reconocer secuencias parcialmente similares, pero lo mismo podría decirse sobre los métodos del análisis de texto. Las expresiones genéticas, por otro lado, son series de tiempo. Aquí, la causa precede al efecto y la estacionalidad se puede observar, por ejemplo, en los ritmos circadianos.

Aquí hay un video de series de tiempo de ADN a 3D
Visualizando la similitud del ADN humano y del chimpancé
Aquí hay un video de ADN a series de tiempo 1D

eamonn