¿Cómo se usa el ADN para almacenar datos digitales?

La idea de almacenar datos digitales en el ADN tiene varias décadas de antigüedad, pero un trabajo reciente de Harvard y el Instituto Europeo de Bioinformática
demostró que el progreso en los métodos modernos de manipulación del ADN podría hacerlo
posible y práctico hoy. Muchos grupos de investigación, incluso en
ETH Zurich, la Universidad de Illinois en Urbana-Champaign y la Universidad de Columbia están trabajando en este problema. Nuestro propio grupo en la Universidad de Washington y Microsoft posee el récord mundial de la cantidad de datos almacenados y recuperados con éxito del ADN: 200 megabytes.

Preparando bits para convertirse en átomos

Ahora tenemos un plan sobre cómo almacenar los datos. Luego tenemos que hacerlo realmente.

Por lo tanto, debemos dividir los datos en fragmentos más pequeños y agregar a cada uno un
indicador de dónde en la secuencia cae. Cuando es hora de leer el
Información almacenada en el ADN, ese indicador asegurará todos los fragmentos de
los datos permanecen en su orden correcto.

Los archivos de computadora digital pueden ser bastante grandes, incluso terabytes de tamaño para bases de datos grandes.
Pero las cadenas de ADN individuales tienen que ser mucho más cortas, y solo contienen aproximadamente
20 bytes cada uno. Eso es porque cuanto más larga es una cadena de ADN, más difícil es
es construir químicamente.

Hay varias formas de hacer esto, pero la idea general es asignar
patrones de datos digitales para nucleótidos de ADN. Por ejemplo, 00 podría ser
equivalente a A, 01 a C, 10 a T y 11 a G. Para almacenar una imagen, para
Por ejemplo, comenzamos con su codificación como un archivo digital, como un JPEG. Ese
El archivo es, en esencia, una larga cadena de 0s y 1s. Digamos el primero
ocho bits del archivo son 01111000; los dividimos en pares – 01 11 10
00 – que corresponden a CGTA. Ese es el orden en el que nos unimos al
nucleótidos para formar una cadena de ADN.

Para almacenar datos en el ADN, el concepto es el mismo, pero el proceso es
diferente. Las moléculas de ADN son secuencias largas de moléculas más pequeñas, llamadas
nucleótidos: adenina, citosina, timina y guanina, generalmente
designado como A, C, T y G. En lugar de crear secuencias de 0 y
1s, como en los medios electrónicos, el almacenamiento de ADN utiliza secuencias de
nucleótidos

Los medios tradicionales como los discos duros, las unidades de memoria USB o los DVD almacenan datos digitales cambiando las propiedades magnéticas, eléctricas u ópticas de un material para almacenar 0s y 1s.

Almacenar los datos
Pero los datos almacenados son útiles solo si podemos recuperarlos más tarde.

Una vez que se crean las cadenas de ADN, debemos protegerlas contra el daño de la humedad y la luz. Entonces los secamos y los ponemos en un recipiente que los mantiene fríos y bloquea el agua y la luz.

Este proceso nos brinda otro beneficio del almacenamiento de ADN: copias de seguridad.
En lugar de hacer una hebra a la vez, las reacciones químicas hacen
muchos hilos idénticos a la vez, antes de hacer muchas copias de
El siguiente capítulo de la serie.

Después de determinar en qué orden deben ir las letras, el ADN
Las secuencias se fabrican letra por letra con reacciones químicas.
Estas reacciones son impulsadas por equipos que toman botellas de A,
C, G y T y los mezcla en una solución líquida con otros
productos químicos para controlar las reacciones que especifican el orden de la
hebras físicas de ADN.

Leer los datos nuevamente

Por el momento, la mayoría de los sistemas de recuperación de ADN requieren leer todos los
información almacenada en un contenedor particular, incluso si solo queremos un
pequeña cantidad de ella. Esto es como leer un disco duro completo
información solo para encontrar un mensaje de correo electrónico. Hemos desarrollado
técnicas, basadas en métodos de bioquímica bien estudiados, que nos permiten identificar y leer solo las piezas específicas de información que un usuario necesita recuperar del almacenamiento de ADN.

Y si las copias de seguridad se agotan, es fácil hacer copias duplicadas para rellenar el almacenamiento, al igual que la naturaleza copia el ADN todo el tiempo.

Para volver a leer los datos fuera del almacenamiento, utilizamos una máquina de secuenciación exactamente igual a la utilizada para el análisis del ADN genómico en las células.
Esto identifica las moléculas, generando una secuencia de letras por
molécula, que luego decodificamos en una secuencia binaria de 0s y 1s en
orden. Este proceso puede destruir el ADN a medida que se lee, pero ahí es donde
esas copias de seguridad entran en juego: hay muchas copias de cada
secuencia.