¿Se pueden tratar las secuencias de ADN como series temporales?

¡Decir ah! Me río de la respuesta del usuario de Anon.

Por supuesto, las secuencias de ADN pueden examinarse desde la 4ta dimensión. El ejemplo más conocido proviene del estudio de evolución a largo plazo de E. coli donde observaron la secuencia de ADN de E. coli durante más de 50 mil generaciones [1].

Desafortunadamente, encontrar cifras de acceso abierto legalmente compartibles de estos estudios es difícil, por lo que tendré que recurrir al uso de cifras del estudio de evolución de levadura “a largo plazo” [2].

Figura 4. Frecuencias alélicas de amplificación mth1-3 y HXT6 / 7 en la subpoblación amarilla.

El pie de figura básicamente se explica a sí mismo. Al observar el tiempo extra de ADN, puede ver que la frecuencia de mth1-3 y HXT6 / 7 cambia el tiempo extra y en realidad están correlacionados entre sí. Aquí “solo” observamos 400 generaciones.

Entonces, sí, puede ver la secuencia de ADN particularmente en regiones altamente mutantes en una serie de tiempo. Estoy bastante seguro de que con el volumen de datos de secuenciación que saldrá en el futuro cercano, habrá mucho más y probablemente podamos rastrear la progresión del cáncer a nivel molecular.

Este tipo de datos también es una gran razón por la cual los biólogos están muy molestos con las personas que no creen en la evolución .

[1] http://myxo.css.msu.edu/ecoli/
[2] http://www.plosgenetics.org/arti…

ADNMinería de datos

¿Cuál es la diferencia entre un mosaico y una quimera?

Algunas empresas ofrecen ahora la determinación de la ascendencia del ADN por unos US $ 100, simplemente enviando un raspado de la boca. ¿Vale la pena?

¿Por qué cada rostro humano, ADN y huella digital son diferentes de los demás?

¿Qué podría cambiar tu ADN?

¿Es común que un gen se transcriba de ARNm a ADNc pero luego no se exprese en absoluto hasta que alguna otra maquinaria esté activa?

Metafísica: ¿Qué es exactamente una metafísica?

No sé cuáles fueron las intenciones del póster original, pero aquí está mi interpretación de la pregunta ‘¿Se pueden tratar las secuencias de ADN como series de tiempo?’

Una secuencia de ADN (ACGTACT …, por ejemplo) es una colección de bases que tienen un orden espacial definido (la A realmente precede a la C, que realmente precede a la G, etc., en la molécula de ADN, al menos si leemos la molécula linealmente, de 5 ‘a 3’, por ejemplo). Como la indexación es importante, nos hemos encontrado en el ámbito de los procesos estocásticos. Un proceso estocástico (al menos desde una perspectiva) es una colección indexada de variables aleatorias. El proceso estocástico más simple con el que la mayoría de los científicos está familiarizado es una muestra aleatoria, el llamado proceso estocástico IID (independiente e idénticamente distribuido) en el que cada instancia de la secuencia es independiente de la otra, y todas las secuencias tienen la misma distribución . Este es el pan de cada día de los cursos introductorios de estadística (principalmente porque las suposiciones de IID hacen que los problemas sean manejables). Pero la naturaleza no necesita comportarse de acuerdo con nuestras teorías de STAT100.

Un proceso estocástico general permite dependencias arbitrarias entre todas las variables aleatorias. Por ejemplo, podría ser el caso de que una A sea más probable que siga a una G (no sé la biología, pero he visto evidencia de que este tipo de cosas suceden en genomas reales), o una T para seguir una C. Si incorporamos este tipo de información en nuestro modelo de la secuencia de ADN, tenemos algo llamado una cadena de Markov de primer orden (la probabilidad de observar una base X solo depende de la base previa observada, y es independiente de todas las bases antes de que). Podemos extender esto a las cadenas generales de Markov de orden n, donde la probabilidad de observar una base particular solo depende de las bases b anteriores (b = 1 nos da la cadena de primer orden).

Otro modelo de proceso estocástico común utilizado para las secuencias de ADN es el modelo oculto de Markov (abreviado a menudo HMM). En este caso, tenemos un proceso conjunto, una secuencia de símbolos que observamos (en este caso, las bases) y una secuencia de ‘estado’ no observada que no observamos (pero que nos gustaría inferir). Esta es una técnica común para identificar genes dentro de una secuencia de ADN, donde el estado oculto transita entre ‘gen’ y ‘no gen’.

Estas ideas aplicadas a las secuencias de ADN son antiguas y se remontan al menos hasta la década de 1980. Ver, por ejemplo, * Modelos estocásticos de Gary Churchill para secuencias de ADN heterogéneas * (el primer resultado de Google para ‘secuencia de ADN de proceso estocástico’):

http://www.ncbi.nlm.nih.gov/pubm …

Volviendo a las cosas a la pregunta original, una serie de tiempo es solo un tipo particular de proceso estocástico, donde el índice está en el tiempo. Una secuencia de ADN es un objeto muy similar, donde el índice está sobre el espacio. En ambos casos, generalmente estamos interesados en las dependencias entre observaciones cercanas (y distantes), en el tiempo para series de tiempo y en el espacio para secuencias de ADN. Como tal, las herramientas de un campo a menudo se pueden aplicar al otro. Sin embargo, las herramientas de análisis de series de tiempo generalmente incluyen observaciones de valor real (el precio de cierre del mercado de valores en días consecutivos, el peso de un paciente durante un período de tiempo, etc.), mientras que las observaciones de secuencias de ADN implican observaciones discretas de un alfabeto fijo {A, G, C, T, U}. Como tal, debemos tener cuidado con cualquier intento de trasplantar herramientas directamente desde el análisis de series temporales hasta el análisis de secuencia de ADN.

Christopher VanLang

No No hay ordenamiento temporal a lo largo de la secuencia de ADN que justifique eso.

Eso no quiere decir que algunos métodos de análisis de series temporales no puedan ser útiles, como reconocer secuencias parcialmente similares, pero lo mismo podría decirse sobre los métodos del análisis de texto. Las expresiones genéticas, por otro lado, son series de tiempo. Aquí, la causa precede al efecto y la estacionalidad se puede observar, por ejemplo, en los ritmos circadianos.

Eamonn Keogh

Aquí hay un video de series de tiempo de ADN a 3D
Visualizando la similitud del ADN humano y del chimpancé
Aquí hay un video de ADN a series de tiempo 1D

eamonn

Christopher VanLang

More Interesting

¿Alguna vez el príncipe Harry tuvo una prueba de ADN para demostrar quién es su padre?

¿Qué tan viable es la tecnología para eliminar un cromosoma de un gameto y colocar otro cromosoma del mismo par en ese gameto con el gameto aún viable?

¿Los asiáticos tienen ADN de neandertal en ellos?

¿Cómo se puede explicar el emparejamiento base gratuito?

¿Cómo podría un dispositivo avanzado de creación de perfiles de ADN evitar ser engañado por muestras de ADN plantadas?

¿La disponibilidad generalizada de pruebas de ADN te ha hecho repensar donando anónimamente tu esperma u óvulos para el uso de parejas infértiles?

¿Qué es el análisis gramatical del plegamiento de ARN?

¿En qué lugares del mundo podría el gobierno secuenciar completamente el ADN de un ciudadano sin su consentimiento?

¿Están estos dos relacionados, ADN y personalidad?