El ADN sirve como un dispositivo de memoria biológica , almacenando datos digitales (que codifican el genoma ) en forma de bits (dígitos binarios) codificados en cuatro nucleobases : timina, citosina, denina A y uanina, que representan el cuaternario (base cuatro) dígitos 0 , 1 , 2 y 3 respectivamente (binario 00 , 01 , 10 y 11 ).
Lo que el genoma humano (≈ 6.4 billones de bases (2 × 3.2 billones de bases ≈ 12.8 gigabits)) en realidad está codificando aún no se entiende en detalle: menos del 3% (≈ 192 megabits (en “lenguaje de computadora ≈ 46 megabytes (ver más abajo) )) se sabe que codifica genes para proteínas o estructuras de ARN (fuente: sitn.hms.harvard.edu ), y la mayoría del resto (hasta ahora) se denomina ADN “no codificante”.
- ¿Qué tan probable es que dos personas genéticamente idénticas hayan nacido en la historia de la humanidad (excluyendo gemelos, por supuesto)?
- ¿Se puede inferir la naturaleza de 4 bases del ADN a partir de datos estadísticos?
- ¿Qué es un buen árbol filogenético de grupos de población humana?
- ¿Cuál es el servicio más informativo para usar en las pruebas genéticas? ¿Algún servicio ofrece pruebas tanto de ADNmt (femenino) como de cromosoma Y (masculino), y cómo importa?
- ¿Pueden dos especies diferentes tener el mismo número de cromosomas o no?
Gráfico circular de contenido del genoma extraído de Cell Biology by the Numbers , artículo ¿Cuántos genes hay en un genoma? Título original:
Los diferentes componentes de secuencia que componen el genoma humano. Aproximadamente el 1.5% del genoma consiste en las secuencias codificadoras de proteínas ≈20,000 que están intercaladas por los intrones no codificantes, que representan aproximadamente el 26%. Los elementos transponibles son la fracción más grande (40-50%), incluidos, por ejemplo, elementos nucleares intercalados largos (LINE) y elementos nucleares intercalados cortos (SINE). La mayoría de los elementos transponibles son restos genómicos, que actualmente están extintos. (BNID 110283, Adaptado de TR Gregory Nat Rev Genet. 9: 699-708, 2005 basado en el Consorcio Internacional de Secuenciación del Genoma Humano. Secuencia inicial y análisis del genoma humano. Nature 409: 860 2001.)
Los datos binarios se asignan (en 64 tripletes cuaternarios) a información biológica , es decir, aminoácidos específicos, como se muestra en la tabla a continuación (aminoácidos nombrados en sus abreviaturas estándar de 3 y 1 caracteres)
Notas para la tabla de tripletes de ADN:
- Los trillizos 10, 11 y 14 solo sirven como códigos de parada (sin aminoácidos codificados)
- Los tripletes 15 y 35 codifican de forma exclusiva los aminoácidos W y M , respectivamente
- Triplet 35 es también el código universal de ” inicio de transcripción ”
- Trillizos 10 + 11 + 14 ( parada ) es igual a 35 ( inicio ) – ¡Buena coincidencia!
Usando tres por ciento de “almacenamiento de genes” – para un mayor margen de error, doble la cantidad que se muestra en el gráfico circular anterior – el genoma humano almacena los datos de la siguiente manera:
Almacenamiento de datos del genoma humano (ADN), en comparación con el almacenamiento de datos de la computadora