Genómica: ¿Cuál es una buena descripción conceptual de los criterios de funcionalidad utilizados en el proyecto ENCODE?

Ridículamente sobreinclusivo, si todavía usan el criterio de “cualquier nivel de transcripción significa función”.

si es cierto que aproximadamente el 80% del genoma se transcribe, pero no es activo en la síntesis de proteínas (o su regulación), ¿qué más podría estar pasando?

La respuesta obvia es “nada”. Si una región del genoma se transcribe al azar, ¿cuál es el costo de esa transcripción? Si el costo es bajo, entonces no hay razón para evitar que se transcriba al azar. No hay una razón obvia por la que un fragmento aleatorio de ARN sería perjudicial, por lo que no hay razón para controlar su transcripción.

¿Cuál es el costo de evitar su transcripción? Podría ser significativo Bien podría requerir mutaciones múltiples para eliminar secuencias aleatorias que son vagamente similares al inicio. Esencialmente es una pregunta de información, donde el costo es el costo de cualquier transmisión de información perfecta.

Como mínimo, la hipótesis nula debería ser que la transcripción aleatoria tiene un valor mínimo y un costo mínimo. Los comunicados de prensa de ENCODE asumieron a priori que la transcripción aleatoria tiene un beneficio activo, y luego concluyeron que, por lo tanto, la transcripción aleatoria demuestra que tiene un beneficio activo. Eso no es ciencia, es masturbación.

Los procesos celulares son típicamente multicapa. Es mucho más fácil tener tres procesos, cada uno de los cuales detecta el 90% de los errores, que tener un proceso que detecta el 99.9% de ellos. Vemos esto en la traducción de proteínas, donde la traducción ribosómica es bastante buena pero deja pasar mucha basura; Las proteínas mal traducidas se degradan rápidamente por las vías proteasómicas. ¿Son las proteínas mal plegadas partes importantes de los procesos celulares? La mayoría de la gente no lo diría [1]; son simplemente basura, a pesar de que una proteína mal plegada tiene mucho más potencial de daño que un fragmento de ARN mal traducido. Nuevamente, esta debería ser una hipótesis nula.


1. Con la posibilidad posible, y aún controvertida, de la hipótesis DRiP de Jon Yewdell

La respuesta de Ian es casi perfecta. Pero solo quiero señalar una parte que falta.

Lo que Encode afirmó es ~ 80% del genoma es bioquímicamente funcional, lo que significa que parte del genoma se puede medir en cualquier ensayo de Encode, incluidos RNA-seq y ChIP-seq en cualquier tipo de célula.

Por lo tanto, funcional no significa transcrito exclusivamente. De hecho, muchos genomas funcionales son elementos reguladores, excepto las regiones transcritas. Por ejemplo, alguna secuencia puede usarse como promotores o potenciadores para facilitar la transcripción, pero las secuencias en sí mismas pueden no transcribirse. Pero esas secuencias siguen siendo funcionales.

Definitivamente, habrá muchos falsos positivos en la medición. Pero teniendo en cuenta el alcance limitado de los ensayos y los tipos de células que podemos probar ahora, podría haber más por descubrir. El 80% puede no ser exacto, pero una cosa que creo que es verdad es que gran parte del genoma es funcional en lugar de ADN basura.