No sé cuáles fueron las intenciones del póster original, pero aquí está mi interpretación de la pregunta ‘¿Se pueden tratar las secuencias de ADN como series de tiempo?’
Una secuencia de ADN (ACGTACT …, por ejemplo) es una colección de bases que tienen un orden espacial definido (la A realmente precede a la C, que realmente precede a la G, etc., en la molécula de ADN, al menos si leemos la molécula linealmente, de 5 ‘a 3’, por ejemplo). Como la indexación es importante, nos hemos encontrado en el ámbito de los procesos estocásticos. Un proceso estocástico (al menos desde una perspectiva) es una colección indexada de variables aleatorias. El proceso estocástico más simple con el que la mayoría de los científicos está familiarizado es una muestra aleatoria, el llamado proceso estocástico IID (independiente e idénticamente distribuido) en el que cada instancia de la secuencia es independiente de la otra, y todas las secuencias tienen la misma distribución . Este es el pan de cada día de los cursos introductorios de estadística (principalmente porque las suposiciones de IID hacen que los problemas sean manejables). Pero la naturaleza no necesita comportarse de acuerdo con nuestras teorías de STAT100.
Un proceso estocástico general permite dependencias arbitrarias entre todas las variables aleatorias. Por ejemplo, podría ser el caso de que una A sea más probable que siga a una G (no sé la biología, pero he visto evidencia de que este tipo de cosas suceden en genomas reales), o una T para seguir una C. Si incorporamos este tipo de información en nuestro modelo de la secuencia de ADN, tenemos algo llamado una cadena de Markov de primer orden (la probabilidad de observar una base X solo depende de la base previa observada, y es independiente de todas las bases antes de que). Podemos extender esto a las cadenas generales de Markov de orden n, donde la probabilidad de observar una base particular solo depende de las bases b anteriores (b = 1 nos da la cadena de primer orden).
Otro modelo de proceso estocástico común utilizado para las secuencias de ADN es el modelo oculto de Markov (abreviado a menudo HMM). En este caso, tenemos un proceso conjunto, una secuencia de símbolos que observamos (en este caso, las bases) y una secuencia de ‘estado’ no observada que no observamos (pero que nos gustaría inferir). Esta es una técnica común para identificar genes dentro de una secuencia de ADN, donde el estado oculto transita entre ‘gen’ y ‘no gen’.
Estas ideas aplicadas a las secuencias de ADN son antiguas y se remontan al menos hasta la década de 1980. Ver, por ejemplo, * Modelos estocásticos de Gary Churchill para secuencias de ADN heterogéneas * (el primer resultado de Google para ‘secuencia de ADN de proceso estocástico’):
http://www.ncbi.nlm.nih.gov/pubm …
Volviendo a las cosas a la pregunta original, una serie de tiempo es solo un tipo particular de proceso estocástico, donde el índice está en el tiempo. Una secuencia de ADN es un objeto muy similar, donde el índice está sobre el espacio. En ambos casos, generalmente estamos interesados en las dependencias entre observaciones cercanas (y distantes), en el tiempo para series de tiempo y en el espacio para secuencias de ADN. Como tal, las herramientas de un campo a menudo se pueden aplicar al otro. Sin embargo, las herramientas de análisis de series de tiempo generalmente incluyen observaciones de valor real (el precio de cierre del mercado de valores en días consecutivos, el peso de un paciente durante un período de tiempo, etc.), mientras que las observaciones de secuencias de ADN implican observaciones discretas de un alfabeto fijo {A, G, C, T, U}. Como tal, debemos tener cuidado con cualquier intento de trasplantar herramientas directamente desde el análisis de series temporales hasta el análisis de secuencia de ADN.