NCBI es un gran recurso para obtener información genómica y proteica. Se utiliza principalmente para comparar o alinear secuencias de genes y proteínas en la web, pero también enumera todas las proteínas humanas en un formato FASTA fácilmente descargable en esta carpeta: (ftp://ftp.ncbi.nih.gov/genomes/H…). Reuní algunas estadísticas simples de los datos.
Número de proteínas humanas en el banco de datos: 37,391 *
Longitud promedio de cada proteína humana: 480 aminoácidos.
Masa promedio aproximada de una proteína humana: 53 kDa
El hecho de que aparezca un marco de lectura abierto en el genoma no significa que se transcriba y luego se traduzca en una proteína. Muchas de esas 37.391 secuencias de proteínas hipotéticas no codifican proteínas reales.
- ¿Cuál es la reacción entre el carbonato de sodio y el ácido benzoico?
- Química orgánica: ¿por qué el furano es más reactivo que el tiofeno hacia los electrófilos?
- Un compuesto orgánico A, que tiene la fórmula C3H6Br2, en el tratamiento con KOH acuoso da el compuesto B, que en el tratamiento con HCN seguido de hidrólisis forma un ácido ópticamente activo. ¿Cuál es la estructura de A?
- ¿Cuál fue la primera forma de vida que se formó en la Tierra? ¿Cómo se formó?
- En las reacciones químicas, ¿cuál es el papel de la energía?
Una estimación más precisa podría provenir de la biblioteca de ADNc humano (ADN codificador). Esta es una biblioteca de todas las secuencias de ARNm presentes en la célula. NCBI enumera la información de la secuencia de ADNc aquí: (ftp://ftp1.nci.nih.gov/pub/MGC/f…). Usando esta lista, obtuve un valor ligeramente mayor para el tamaño promedio de una proteína humana.
Número de proteínas humanas en la biblioteca de ADNc: 30.036 **
Longitud promedio de cada proteína humana: 485 aminoácidos ( mediana 384 aa )
Masa promedio aproximada de una proteína humana: 53 kDa ( mediana 42 kDa )
Ninguna de estas estimaciones tiene en cuenta la modificación postraduccional, que típicamente aumentaría el peso molecular.
Ambas estimaciones proporcionan la longitud promedio de proteínas en el genoma o la biblioteca de ADNc en lugar del peso molecular promedio de las proteínas en una célula típica. Ese valor, que daría peso estadístico a las proteínas más abundantes, sería bastante difícil de obtener. Varía según el tipo de célula, el entorno y el cambio a lo largo del tiempo. Aún así, podría tener un valor más práctico que las estimaciones que he dado basadas únicamente en la longitud de los genes e ignorando la abundancia relativa de sus productos proteicos en la célula.
* Esto es mayor que la cantidad estimada de proteínas únicas en el genoma, que está más cerca de 20,000. Esta lista incluye proteínas redundantes presentes en múltiples genes, así como algunas proteínas hipotéticas que en realidad no se transcriben en ARNm.
** Esto también es mayor que el número estimado de proteínas únicas, esta vez presumiblemente debido al exceso de empalme alternativo de moléculas de ARNm.
Para obtener más estimaciones del tamaño de la proteína, consulte http://www.ncbi.nlm.nih.gov/pmc/… donde el tamaño medio de las proteínas humanas en la base de datos Pfam-A es 416 aa.