¿Cuál es el tamaño promedio de una proteína humana (en kDa)?

NCBI es un gran recurso para obtener información genómica y proteica. Se utiliza principalmente para comparar o alinear secuencias de genes y proteínas en la web, pero también enumera todas las proteínas humanas en un formato FASTA fácilmente descargable en esta carpeta: (ftp://ftp.ncbi.nih.gov/genomes/H…). Reuní algunas estadísticas simples de los datos.

Número de proteínas humanas en el banco de datos: 37,391 *
Longitud promedio de cada proteína humana: 480 aminoácidos.
Masa promedio aproximada de una proteína humana: 53 kDa

El hecho de que aparezca un marco de lectura abierto en el genoma no significa que se transcriba y luego se traduzca en una proteína. Muchas de esas 37.391 secuencias de proteínas hipotéticas no codifican proteínas reales.

Una estimación más precisa podría provenir de la biblioteca de ADNc humano (ADN codificador). Esta es una biblioteca de todas las secuencias de ARNm presentes en la célula. NCBI enumera la información de la secuencia de ADNc aquí: (ftp://ftp1.nci.nih.gov/pub/MGC/f…). Usando esta lista, obtuve un valor ligeramente mayor para el tamaño promedio de una proteína humana.

Número de proteínas humanas en la biblioteca de ADNc: 30.036 **
Longitud promedio de cada proteína humana: 485 aminoácidos ( mediana 384 aa )
Masa promedio aproximada de una proteína humana: 53 kDa ( mediana 42 kDa )


Ninguna de estas estimaciones tiene en cuenta la modificación postraduccional, que típicamente aumentaría el peso molecular.

Ambas estimaciones proporcionan la longitud promedio de proteínas en el genoma o la biblioteca de ADNc en lugar del peso molecular promedio de las proteínas en una célula típica. Ese valor, que daría peso estadístico a las proteínas más abundantes, sería bastante difícil de obtener. Varía según el tipo de célula, el entorno y el cambio a lo largo del tiempo. Aún así, podría tener un valor más práctico que las estimaciones que he dado basadas únicamente en la longitud de los genes e ignorando la abundancia relativa de sus productos proteicos en la célula.

* Esto es mayor que la cantidad estimada de proteínas únicas en el genoma, que está más cerca de 20,000. Esta lista incluye proteínas redundantes presentes en múltiples genes, así como algunas proteínas hipotéticas que en realidad no se transcriben en ARNm.
** Esto también es mayor que el número estimado de proteínas únicas, esta vez presumiblemente debido al exceso de empalme alternativo de moléculas de ARNm.

Para obtener más estimaciones del tamaño de la proteína, consulte http://www.ncbi.nlm.nih.gov/pmc/… donde el tamaño medio de las proteínas humanas en la base de datos Pfam-A es 416 aa.

Es divertido estimar el tamaño de las proteínas bioinformáticamente, pero en realidad no es tan difícil medir estas cosas experimentalmente.

Bionumbers da 50 kD como la masa promedio de una proteína humana, medida a partir de un gel SDS PAGE. Tenga en cuenta que esto solo contará las masas de polipéptidos individuales y no complejos, pero el enfoque bioinformático que Alex Siegel describió tiene la misma advertencia. Ver enlace y referencia a continuación.

Masa molecular promedio de proteína celular en HeL
Hendil KB, Hartmann-Petersen R, Tanaka K. 26 Los proteasomas S funcionan como entidades estables. J Mol Biol. 2002 25 de enero 315 (4): 627-36. p.631

La construcción de la biblioteca de ADNc puede ser una gran fuente para saber que … Una biblioteca de ADNc es una combinación de fragmentos de ADNc clonado (ADN complementario) insertados en una colección de células huésped, que juntas constituyen una parte del transcriptoma del organismo. El ADNc se produce a partir de ARNm totalmente transcrito que se encuentra en el núcleo y, por lo tanto, contiene solo los genes expresados ​​de un organismo. De manera similar, se pueden producir bibliotecas de ADNc específicas de tejido. En las células eucariotas, el ARNm maduro ya está empalmado, por lo tanto, el ADNc producido carece de intrones y puede expresarse fácilmente en una célula bacteriana. Si bien la información en las bibliotecas de ADNc es una herramienta poderosa y útil ya que los productos genéticos se identifican fácilmente, las bibliotecas carecen de información sobre potenciadores, intrones y otros elementos reguladores que se encuentran en una biblioteca de ADN genómico. Si todavía está buscando saber eso, simplemente visite http://www.cd-genomics.com/ y conozca lo mejor.