Biología sintética: ¿Cómo se codifican exactamente los bits como ADN?

El grupo usa un sistema de 19 bits para codificar la dirección y, de hecho, utiliza un sistema de base 2 donde A y C se consideraron 0 y G y T se consideraron 1.

Codificación
El archivo codificado de The Tale of Two Cities y otros materiales, incluidas las fotos, se convirtieron en un archivo html que se tradujo al lenguaje binario utilizando un script perl. El uso de un sistema de base 2 permite el diseño de 54.898 oligos superpuestos para contar la historia de 5,27 megabits

Síntesis
La biblioteca de ADN se sintetizó utilizando la plataforma de microarrays Agilent Oligo Library Synthesis. A partir de esta biblioteca, los oligos se ensamblaron mediante 10 rondas de PCR de ensamblaje seguidas de 9 rondas de amplificación por PCR.

Secuencia
La plantilla de ADN final se puede usar para la secuenciación de Illumina Solexa. El HiSeq 2000 les permitió obtener una cobertura de 100 veces del “libro” de ADN y con la secuencia de pares, pudieron obtener lecturas de 100 pb con bajos errores. Para ensamblar contigs, usaron SeqPrep y para alinear aún más esos contigs, se usaron Bowtie y SamTools.

Descodificación
Para obtener una lectura de consenso, utilizaron un script de Python para volver a ensamblar las lecturas de alta calidad de 115 pb. Usando la dirección de 19 bits, pueden comenzar a leer la historia y traducir el As, Cs, Gs y Ts nuevamente en 1s y 0s

¿Hay alguna razón por la que no usan cada letra para almacenar dos bits? Por ejemplo, podría tener A = 00, C = 01, T = 10, G = 11. Con esta codificación, incluso podría almacenar el doble de datos.