¿Cuánto espacio en el disco duro se necesita para almacenar datos humanos de un exoma / genoma sin procesar?

Como de costumbre, la respuesta es “depende”.

Es difícil / imposible simplemente escribir completamente la secuencia completa del genoma con un 100% de confianza, por lo que a menudo el almacenamiento de datos en bruto o intermedios es útil para el refinamiento y el reanálisis. La cantidad de datos que realmente termina almacenando depende de su aplicación eventual, el costo y la asequibilidad de la nueva secuencia, etc.

Una secuenciación completa del genoma con una buena cobertura (30x o más) puede producir 100GB – 1TB de datos sin procesar dependiendo de su tecnología de secuenciación e instrumento. Como señala Emad Farag, una versión “completa” de un solo genoma se puede comprimir a alrededor de 1.5GB si está dispuesto a hacer todas las llamadas en algún umbral de confianza y descartar todos los datos sin procesar e intermedios.

Un exoma comprende aproximadamente el 1% de un genoma completo, por lo tanto, divida los números anteriores por 100 para obtener los tamaños correspondientes para los exomas.

Un genotipo 23andMe (~ 1M SNPs) se puede comprimir a aproximadamente 500 KB (4 bits por SNP) para usar en el sitio web, pero también almacenan versiones de mayor resolución para cada genotipo para uso interno (con intensidades de sonda sin procesar, puntajes de confianza y similares), por lo que la cantidad de datos almacenados por genotipo es sustancialmente mayor.

BioinformáticaGenética y HerenciaGenómica

Related Content

¿Qué proceso corporal causa gemelos idénticos vs gemelos fraternos?

¿Hay ejemplos de una especie que tiene una ventaja porque no evolucionó, sobre las especies que sí lo hicieron?

¿Cómo obtener FOXO4 DRI para experimentos con animales? Es caro

¿Cuáles son algunos de los mejores ejemplos de modificaciones genéticas?

¿Por qué no quedará ningún código genético si el ARN se vuelve bicatenario?

¿Qué tan separados están los palestinos e israelíes étnica / genéticamente?

¿En qué casos pueden dos personas ciegas (o con discapacidad auditiva) tener hijos perfectamente normales?

El archivo de secuencia sin procesar, que generalmente viene en pares, oscila fácilmente alrededor de ~ 10G para obtener una muestra de secuenciación de exoma completa para una cobertura de 100X.

Esta cobertura es necesaria para llamar mutaciones con confianza, así como la inserción / eliminación en estas regiones.

En cada paso de procesamiento, este archivo 10G original puede generar archivos intermedios, ~ 5G cada uno:

lee recortes para eliminar secuencias de enlazador (aún debe permanecer ~ 10G)

este archivo puede ser eliminado

crear un archivo bam limpio (~ 5G)

lee mapeo / alineación con el genoma
marca del adaptador

marcar duplicados (~ 6G)

este archivo puede ser eliminado

lecturas de realineación alrededor de indels conocidos (~ 6G)

este archivo puede ser eliminado

recalibrar los puntajes de calidad base (~ 6G)

Deberías terminar con 3 archivos:

las lecturas muy crudas (10G)
el archivo bam limpio, con (5G)

todas las lecturas originales secuenciadas, con

los que se pueden mapear con su información de mapeo

el archivo bam final, con las lecturas (5G)

realineado alrededor de los indels conocidos
el puntaje base de calidad recalibrado

Muhammed Aali

Cada base de ADN se puede almacenar como dos bits (1/4 byte). Por lo tanto, el genoma humano diploide, que es de alrededor de 6 mil millones de pares de bases, se puede almacenar en un archivo de 1,5 GB.

Muhammed Aali

More Interesting

¿Pueden las personas de baja inteligencia o bajo coeficiente intelectual tener hijos altamente inteligentes?

¿Cómo se leen exactamente los números en una posición cromosómica?

¿Se puede utilizar la ingeniería genética para terminar con la depresión?

¿Cuáles son las mejores partes de tener gemelos idénticos?

¿En cuántas generaciones una nueva presión ambiental deja una marca de ADN?

¿Mis ojos son de color avellana o verde?

Cuando un laboratorio encuentra una mutación patógena en un gen, ¿cuál es la secuencia 'normal' con la que se compara el gen objetivo? ¿Está almacenado en alguna base de datos pública?

¿Algún científico loco alguna vez ha tratado de cruzar animales con genes humanos?

¿Un gen dominante reprime o apaga el gen recesivo correspondiente con su producto? ¿O simplemente tiene un promotor más fuerte y produce más producto genético?

¿Cómo funciona la secuenciación del genoma completo de una sola célula y por qué es tan difícil?

Si se suponía que el cromosoma X había sido inactivado por el proceso de lyonización, ¿por qué hay tantas anormalidades en el síndrome de Turner (XO)?

¿Por qué no criamos espermatozoides de animales en un óvulo humano o viceversa solo para ver las posibilidades?

¿Pueden los hábitos alimenticios afectar la apariencia humana?

¿Los pinzones de Darwin realmente tienen diferencias genéticas?

¿La disforia de género es genética, epigenética o tiene influencia ambiental?

Web Analytics