Si Illumina Hiseq 2500 cuesta ~ $ 50 / GB, ¿eso significa que el costo de secuenciar un genoma humano (3 * 10 ^ 9 pb) es de alrededor de $ 150 ignorando todos los demás factores? ¿Cambia según la cobertura y cómo?

$ 150 solo pagaría 3 Gbp usando sus cálculos, lo que supone que obtiene cada segmento de cada cromosoma secuenciado sin duplicación. Esto no es realista. Necesita mucha cobertura (al menos 10-20X solo para bacterias) de Illumina para obtener datos confiables porque las lecturas de secuenciación de Illumina no son 100% precisas. Tienen diferentes puntajes de calidad de phred, e incluso el “estándar de oro” de un puntaje de 30 (o 99.9% de precisión) aún significa que 1 base de 1000 puede estar equivocada, lo que puede ser desastroso ya que los SNP (polimorfismos de un solo nucleótido) pueden causar problemas. hasta un genoma real.
http://res.illumina.com/document…

Además, olvida que parte de los adaptadores en sí pueden necesitar secuenciarse para saber de dónde provienen, lo que agrega más bases al costo. Como se menciona en los comentarios, esto puede significar “lecturas de índice”, que no agregan mucha longitud de secuencia, pero a veces hay problemas en los que los adaptadores se secuencian en ciclos posteriores (como cuando hay inserciones muy cortas). La longitud de lectura corta significa inherentemente que algunas regiones del genoma con un alto grado de repetición serán muy difíciles de resolver en el ensamblaje del genoma de novo. Sin embargo, es más fácil que mi investigación (en organismos recientemente descubiertos) porque hay genomas de referencia conocidos sobre los cuales puede alinear las lecturas.

Finalmente, también está el problema de preparar la biblioteca de ADN. Si bien Illumina tiene muchos kits agradables que están optimizados para los genomas humanos, aún existen desafíos para obtener una cobertura uniforme para todos los cromosomas, especialmente los centrómeros. La preparación de la biblioteca en sí misma puede costar $ 100-200.

editar: Brian Farley saca un buen punto. Con la secuenciación de Illumina, se secuencia por células de flujo individuales, que pueden incluir uno o más genomas y producirán más de los datos de 3 Gbp que “desea”.

“Esto solo me da datos en bruto; ensamblarlo en un genoma y obtener interpretaciones significativas de él probablemente requerirá un bioinformático experto al menos un par de días a tiempo completo, si no más”.

Muy correcto, incluso con una configuración de canalización de procesamiento completo y mucha experiencia, un par de días es probablemente una gran subestimación para extraer información significativa de un genoma completo. El control de calidad en tantas secuencias probablemente llevaría días, y eso es incluso antes de comenzar a alinearse con un genoma de referencia. Siempre hay problemas técnicos y problemas, y un buen bioinformático necesita no solo poder ejecutar tuberías, sino editar archivos grandes (60 gb +) y escribir scripts sobre la marcha. ¿Alguna vez has intentado trabajar con un archivo FASTQ de 60 gb +? No es divertido por decir lo menos.

Los precios han bajado un poco desde que se hizo esta pregunta. El HiSeq 2500 que ejecuta la química v4 cuesta ~ $ 29 / Gb y el HiSeq X Ten cuesta ~ $ 7 / Gb. Pero eso no llega al meollo de la pregunta. Las bases 3B le darían solo una cobertura 1X, y eso no es suficiente. Otros han dicho aquí que necesita más cobertura debido a la tasa de error. Eso es parcialmente cierto, pero en realidad no es la razón principal.

En primer lugar, la cobertura 1X no será suficiente porque tienes un genoma diploide: una copia de cada padre. Entonces, lo mínimo que necesitarías es 2X. Pero eso solo sería suficiente si pudiera secuenciar perfectamente el ADN de una sola célula a lo largo de todos los cromosomas (sin amplificar el ADN). Hoy en día no hay tecnologías que puedan acercarse a hacerlo de forma remota. (Es cierto que existen secuenciadores de ‘molécula única’ que no necesitan amplificar el ADN, pero aún funcionan secuenciando el ADN de muchas, muchas células; en realidad, solo están dejando que las células hagan la amplificación).

En cambio, los secuenciadores tienen que trabajar con múltiples copias de genomas con bits aleatorios de cada copia que contribuyen al conjunto de datos final. Al introducir este poco de aleatoriedad en el proceso, las estadísticas ahora se convierten en un factor importante. Para poder diferenciar con precisión entre una llamada homocigótica y heterocigótica, se requiere una cobertura de 10X en cada base. Por ejemplo, si está tratando de distinguir entre un homocigoto A / A y un heterocigoto A / G, y secuencia a 4X de profundidad y siempre ve una A, todavía no está seguro de que siempre esté viendo una A porque es un verdadero homocigoto o si acabas de tener un poco de suerte y aún no has visto el G. Si en realidad es un heterocigoto A / G, entonces las posibilidades de ver siempre una A a 4X de profundidad son 0.5 ^ 4 = 6.25%. Al salir a 10X, la tasa de falsos negativos se convierte en .5 ^ 10 = 0.1%. Más secuenciación sería mejor, por supuesto, pero comienzas a obtener rendimientos decrecientes.

Finalmente, debido a la distribución de Poisson (y debido a que no todas las regiones del genoma son tan accesibles para la secuenciación), la cobertura promedio aumenta hasta 30X. Esto asegura que algo así como el 95% del genoma que se está cubriendo tendrá al menos 10X de cobertura. Nuevamente, aumentar más allá de 30X ayudaría, pero es un punto de rendimientos decrecientes Y solo hay ciertas regiones del genoma que no pueden ser cubiertas por la tecnología de secuenciación Illumina (y la mayoría de las otras) sin importar la profundidad.

Entonces, esta es la razón por la que ve el estándar de cobertura 30X (aunque algunos lo aumentan hasta 40-50X). El punto final es que estos son cálculos de ‘datos en bruto’. Dado que no todos los datos pasarán los filtros, para garantizar una cobertura ‘filtrada’ de 30X, tendrá que disparar por algo un poco más alto, más en el rango de 40X.

Para obtener el precio, es un cálculo simple de (tamaño del genoma haploide) X (cobertura deseada) X ($ / Gb).

Para el HiSeq 2500 v4 eso sería: 3Gb * 40X * $ 29 / Gb = $ 3480 (cobertura bruta 40X, cobertura filtrada ~ 30X)

Para el HiSeq X Ten eso sería 3Gb * 40X * $ 7 / Gb = $ 840 (cobertura cruda 40X, cobertura filtrada ~ 30X)

La tasa que pagaría en mi instalación de secuenciación en el campus (donde obtengo casi un 50% de descuento en relación con los usuarios fuera del campus) es de alrededor de $ 1500 por 250 millones de lecturas, cada una de aproximadamente 100 nucleótidos de largo. Eso me da alrededor de 25 mil millones de nucleótidos por $ 60 / Gbase. Suponiendo que cada lectura pase filtros (lo cual es una suposición muy soleada), esto me daría una cobertura casi 10 veces mayor del genoma humano.

El estándar para la resecuenciación del genoma es una cobertura de 30x, por lo que necesitaría tres ejecuciones perfectas (a un costo de $ 4500). Supongamos que un tercio de las lecturas no pasan filtros (lo cual es un poco caro, pero hace las matemáticas son mucho más fáciles), por lo que necesitaría una cuarta corrida ($ 6000) para garantizar una cobertura suficiente.

Esto solo me da datos en bruto; ensamblarlo en un genoma y obtener interpretaciones significativas de él probablemente llevará a un bioinformático experto al menos un par de días a tiempo completo, si no más.

Todavía no estoy claro cuál es el costo real de secuenciar un genoma único. Mi pregunta es si secuencia 8 muestras en 8 carriles, ¿reducirá mi costo por muestra?