Bioinformática: ¿Cuál es una buena manera de clasificar todas las proteínas humanas de referencia por tamaño y tejido de expresión?

La base de datos TIGER (Expresión y regulación de genes específicos de tejidos) muestra la expresión por tejido y tiene conjuntos de datos descargables (Descargar archivos).

No sé nada sobre la fiabilidad de estos conjuntos de datos. Sin una razón particular para ello, tengo un vago escepticismo sobre todo el concepto.

EDITAR para mencionar este artículo reciente
Combinando evidencia de relaciones preferenciales de tejidos genéticos de múltiples fuentes
lo cual puede ser útil:

Aunque varias fuentes de datos y métodos se han publicado explícitamente para este propósito, a menudo no están de acuerdo y no es evidente cómo recuperar estos genes y cómo distinguir los hallazgos biológicos verdaderos de los que se deben a la elección del método y / o la configuración experimental. . En este trabajo, hemos desarrollado un enfoque computacional que combina resultados de múltiples métodos y conjuntos de datos con el objetivo de eliminar sesgos específicos del método / estudio y mejorar la previsibilidad de los genes humanos expresados ​​preferencialmente. … Comparamos los genes de las puntuaciones más altas con las bases de datos públicas: PaGenBase (microarray), TiGER (EST) y HPA (datos de expresión de proteínas). Los resultados tienen un 85% de superposición a PaGenBase, un 71% a TiGER y solo un 28% a HPA. El 99% de nuestras predicciones tienen soporte de al menos una de estas bases de datos. Nuestro enfoque también funciona mejor que cualquiera de las bases de datos para identificar objetivos de medicamentos y biomarcadores con especificidad de tejido conocida.

Su pregunta no es del todo clara sobre lo que quiere, pero un buen lugar para comenzar sería UniProt, una base de datos de proteínas integral, algunos subconjuntos de los cuales se anotan manualmente (SwissProt) y otros no. UniProt tiene varios proteomas completos, comenzar aquí podría ser útil: ¿Qué es el proteoma completo humano? Desde el enlace “organismo 9606” provisto allí puede personalizar la redundancia de secuencia y buscar por palabra clave, ontología genética (presumiblemente puede obtener tejido de expresión de uno de estos), y ordenar fácilmente por la longitud de la secuencia AA. Casi todos los datos allí son FASTA descargables, o navegables manualmente si así lo desea (también tienen un servidor FTP muy conveniente). Desde allí, puede organizar los datos como desee según la tarea que necesite, por ejemplo, usar un DBMS.

Además, si buscaba el tamaño en kDa, puede usar este convertidor de la secuencia: http://www.bioinformatics.org/sm … o calcularlo usted mismo usando una tabla como: Proteínas y aminoácidos.