¿Cuánto espacio en el disco duro se necesita para almacenar datos humanos de un exoma / genoma sin procesar?

Como de costumbre, la respuesta es “depende”.

Es difícil / imposible simplemente escribir completamente la secuencia completa del genoma con un 100% de confianza, por lo que a menudo el almacenamiento de datos en bruto o intermedios es útil para el refinamiento y el reanálisis. La cantidad de datos que realmente termina almacenando depende de su aplicación eventual, el costo y la asequibilidad de la nueva secuencia, etc.

Una secuenciación completa del genoma con una buena cobertura (30x o más) puede producir 100GB – 1TB de datos sin procesar dependiendo de su tecnología de secuenciación e instrumento. Como señala Emad Farag, una versión “completa” de un solo genoma se puede comprimir a alrededor de 1.5GB si está dispuesto a hacer todas las llamadas en algún umbral de confianza y descartar todos los datos sin procesar e intermedios.

Un exoma comprende aproximadamente el 1% de un genoma completo, por lo tanto, divida los números anteriores por 100 para obtener los tamaños correspondientes para los exomas.

Un genotipo 23andMe (~ 1M SNPs) se puede comprimir a aproximadamente 500 KB (4 bits por SNP) para usar en el sitio web, pero también almacenan versiones de mayor resolución para cada genotipo para uso interno (con intensidades de sonda sin procesar, puntajes de confianza y similares), por lo que la cantidad de datos almacenados por genotipo es sustancialmente mayor.

El archivo de secuencia sin procesar, que generalmente viene en pares, oscila fácilmente alrededor de ~ 10G para obtener una muestra de secuenciación de exoma completa para una cobertura de 100X.

Esta cobertura es necesaria para llamar mutaciones con confianza, así como la inserción / eliminación en estas regiones.

En cada paso de procesamiento, este archivo 10G original puede generar archivos intermedios, ~ 5G cada uno:

  1. lee recortes para eliminar secuencias de enlazador (aún debe permanecer ~ 10G)
  1. este archivo puede ser eliminado
  • crear un archivo bam limpio (~ 5G)
    1. lee mapeo / alineación con el genoma
    2. marca del adaptador
  • marcar duplicados (~ 6G)
    1. este archivo puede ser eliminado
  • lecturas de realineación alrededor de indels conocidos (~ 6G)
    1. este archivo puede ser eliminado
  • recalibrar los puntajes de calidad base (~ 6G)

  • Deberías terminar con 3 archivos:

    1. las lecturas muy crudas (10G)
    2. el archivo bam limpio, con (5G)
      • todas las lecturas originales secuenciadas, con
      • los que se pueden mapear con su información de mapeo
    • el archivo bam final, con las lecturas (5G)
        • realineado alrededor de los indels conocidos
        • el puntaje base de calidad recalibrado

        Cada base de ADN se puede almacenar como dos bits (1/4 byte). Por lo tanto, el genoma humano diploide, que es de alrededor de 6 mil millones de pares de bases, se puede almacenar en un archivo de 1,5 GB.