Está en el orden del 95%.
La razón por la que no es 100% es que hay regiones altamente repetitivas del genoma (por ejemplo, en el centro del cromosoma, llamadas centrómeros, y en los extremos de los cromosomas, llamados telómeros) que son muy difíciles de secuenciar, ya que se extienden de miles a millones de bases, y la tecnología de secuenciación actual secuencia extensiones de ADN del orden de 50 bases a quizás 1000 bases.
Incluso con manipulaciones avanzadas, para obtener tramos de secuencia con un ‘espacio’ intermedio definido (llamado extremo emparejado si el espacio es relativamente corto en los cientos de bases, o pareja de pares si el espacio está en los miles de bases) , el problema sigue siendo una secuencia relativamente no informativa que se repite una y otra vez. (Por ejemplo, imagine la cadena de bases AACCAACCAACCAACCAACCAACC multiplicada cien veces).
- Si tenemos tanto ADN en común, ¿cómo podemos distinguir a alguien de su hermano usando ADN?
- ¿Cuál es el enfoque algorítmico para resolver el problema de ADN de Albocede en Google APAC ronda B?
- ¿Puede la policía evaluar el ADN de una persona con el objetivo de identificar si el padre de esa persona es compatible con algún caso sin resolver?
- ¿Cuál es el propósito del EDTA en el ADN? ¿Cuáles son algunos ejemplos?
- ¿Es cierto que la investigación de ADN muestra que los europeos eran personas de piel oscura hace 8000 años?
La nueva tecnología (como Pacific Biosciences) ofrece lecturas largas (longitud de lectura promedio de 2500 pares de bases), pero la precisión es mucho menor que la secuencia existente de lectura corta. Dado que también es relativamente costoso (del orden de 10x a 100x el costo por base para la secuenciación de lectura corta existente), no se usa para este propósito para el genoma humano.
Por último, mencionas “decodificado” en tu pregunta, y si considero que se ha secuenciado el ADN que codifica todas las proteínas en una célula humana, la respuesta es sí. Esta secuencia se llama ‘exoma’, la secuencia de ADN que consta de unos 23,000 genes y aproximadamente 10 veces más que (más de 230,000) exones individuales cuya disposición precisa puede producir muchas más proteínas con exones que están en diferentes combinaciones (también conocidas como ‘alternativas’ variantes de empalme). Por lo tanto, aunque hay 23K genes, puede haber más de 100,000 proteínas diferentes que codifican estos genes.