La biología es un campo en el que los grandes datos están haciendo una gran diferencia. La biología hasta el siglo pasado a menudo se consideraba como una ciencia no cuantitativa. El punto donde los grandes datos comenzaron a entrar en biología fue con el Proyecto Genoma Humano. Este fue el proyecto más grande en biología con el objetivo de decodificar toda la secuencia del genoma humano. El 23 de noviembre de 1999, el proyecto del genoma humano celebró una celebración masiva para marcar la finalización de mil millones de pares de bases (pb), un tercio del camino hacia la secuencia completa del genoma humano. La cantidad de secuencia fue tan increíble en el momento que la celebración contó con senadores y funcionarios del gabinete de Estados Unidos. En la actualidad, la secuenciación de mil millones de pb es el trabajo de horas en cualquier laboratorio equipado con una máquina de secuenciación de alto rendimiento y la salida cada pocos minutos en un centro de secuenciación a gran escala como el Broad Institute (http://www.broadinstitute.org/ ) o el Instituto de Genómica de Beijing (http://www.big.cas.cn/).
La escala de datos generados se encuentra en un punto en el que muchos centros han dejado de guardar datos primarios ya que los costos de almacenamiento son demasiado altos. Es más barato volver a secuenciar en caso de dudas posteriores. Algunos de los principales proyectos relacionados con esto son:
1000 Genomes Project http://www.1000genomes.org/, un esfuerzo de investigación internacional para establecer un catálogo detallado de la variación genética humana. Planea secuenciar al menos mil participantes anónimos de diferentes grupos étnicos. Mientras el proyecto está en curso, ha publicado más de 200 TB de datos públicamente.
- ¿Quién es más pro-ciencia, republicanos o demócratas?
- ¿Siguen sintiendo los europeos que están muy por delante de China?
- ¿Cuál es la última y sorprendente cosa científica?
- ¿El motor de búsqueda BioMedLib y el servicio Quién está publicando en mi dominio es útil para los investigadores?
- ¿Cómo es ser editor en una importante revista científica?
Proyecto Genome 10K http://www.genome10k.org/ – Este proyecto tiene como objetivo secuenciar los genomas completos de más de 10,000 vertebrados, aproximadamente uno para cada género de vertebrados. Esto ayudará a arrojar luz sobre cómo evolucionaron todos los vertebrados.
La iniciativa i5K http://www.arthropodgenomes.org/… – Un plan para secuenciar 5000 genomas de insectos. Su objetivo es secuenciar los genomas de todas las especies de insectos que se sabe que son importantes para la agricultura mundial, la seguridad alimentaria, la medicina y la producción de energía; todos aquellos utilizados como modelos en biología; el más abundante en los ecosistemas del mundo; y representantes en cada rama de la filogenia de los insectos para lograr una comprensión profunda de la evolución y la filogenia de los artrópodos.
Proyecto 1001 Plant Genomes http://www.onekp.com/ – Tiene como objetivo secuenciar los transcriptomes (parte transcrita del genoma) de 1000 especies de plantas.
Proyecto 1001 Genomes http://1001genomes.org/ – Su objetivo es secuenciar el genoma completo de más de mil cepas de Arabidopsis.
Hay muchos más de estos, Global Ocean Sampling http://www.jcvi.org/cms/research… que tiene como objetivo secuenciar todos los microorganismos presentes en las aguas oceánicas. Proyecto de secuencia de 10.000 microbios. Proyectos para secuenciar el metagenoma del suelo, el intestino y más.
Además de los proyectos de secuenciación, están los proyectos ENCODE y modENCODE, que son una enciclopedia de elementos de ADN en humanos y organismos modelo, respectivamente.
Como resultado de todos estos datos, tenemos una mejor comprensión de la evolución, de los orígenes humanos, el mapeo entre genotipos y fenotipos, y los mecanismos de la enfermedad. Es cierto que la exageración que sigue a la liberación del genoma humano no ha funcionado, pero la medicina personalizada está teniendo un impacto lento en el mundo médico.