Como de costumbre, la respuesta es “depende”.
Es difícil / imposible simplemente escribir completamente la secuencia completa del genoma con un 100% de confianza, por lo que a menudo el almacenamiento de datos en bruto o intermedios es útil para el refinamiento y el reanálisis. La cantidad de datos que realmente termina almacenando depende de su aplicación eventual, el costo y la asequibilidad de la nueva secuencia, etc.
Una secuenciación completa del genoma con una buena cobertura (30x o más) puede producir 100GB – 1TB de datos sin procesar dependiendo de su tecnología de secuenciación e instrumento. Como señala Emad Farag, una versión “completa” de un solo genoma se puede comprimir a alrededor de 1.5GB si está dispuesto a hacer todas las llamadas en algún umbral de confianza y descartar todos los datos sin procesar e intermedios.
- ¿Qué seres vivos son genéticamente más distintos de los humanos? ¿Cuánta similitud tenemos con esos seres vivos?
- ¿Por qué la mayoría de las personas rubias tienen ojos azules?
- Si alguien encuentra un uso para la eliminación o alteración mediada por CRISPR de un gen, ¿pueden patentarlo?
- ¿La apariencia única de los melanesios está correlacionada o causada por la mezcla de denisovanos?
- ¿Por qué los cromosomas no tienen mejores nombres? ¿No podrían los genetistas pensar en mejores nombres que los números cardinales?
Un exoma comprende aproximadamente el 1% de un genoma completo, por lo tanto, divida los números anteriores por 100 para obtener los tamaños correspondientes para los exomas.
Un genotipo 23andMe (~ 1M SNPs) se puede comprimir a aproximadamente 500 KB (4 bits por SNP) para usar en el sitio web, pero también almacenan versiones de mayor resolución para cada genotipo para uso interno (con intensidades de sonda sin procesar, puntajes de confianza y similares), por lo que la cantidad de datos almacenados por genotipo es sustancialmente mayor.