¿Qué herramientas utilizan comúnmente los investigadores en ciencias de la vida para realizar análisis estadísticos básicos de sus datos?

Para tener una idea de las herramientas estadísticas que usan los científicos de la vida, solo navegue a través de la sección Materiales y métodos de los artículos de ciencias de la vida revisados ​​por pares publicados en revistas científicas (vea algunos ejemplos arbitrarios pero recientes a continuación de 1, 2, 3). Hacerlo mostrará que R y GraphPad Prism son quizás las herramientas estadísticas más utilizadas con Excel en un tercer lugar, algo que otros también señalaron.

Sin embargo, esto es solo la mitad de la historia. A medida que la investigación en ciencias de la vida gravitaba cada vez más hacia los enfoques de alta tecnología desde al menos la década de 1980, comenzó a usar muchos instrumentos y tecnologías altamente complejos con sus propios paquetes estadísticos que transforman y analizan los datos en bruto que generan en un formato más utilizable para que el investigador pueda luego analizar utilizando herramientas estadísticas estándar. Un par de ejemplos ilustrativos revelan los riesgos subyacentes a menudo imprevistos que tales instrumentos complejos y sus paquetes de software traen consigo, riesgos derivados de fallas imprevistas en las herramientas estadísticas integradas en ellas.

Citología de flujo de cortesía del talón de Aquiles estadística de Immunological Research

Al entrar en la corriente principal a mediados y finales de la década de 1980, la citometría de flujo, específicamente la Clasificación de células activadas por fluorescencia (FACS), se convirtió rápidamente en un pilar de la inmunología y la investigación de células madre tanto que es muy poco probable que un estudio contemporáneo en estos campos no ‘ No lo use en al menos un experimento. De hecho, es difícil imaginar que cualquier laboratorio de inmunología o de células madre que se respete en 2016 pueda funcionar sin acceso a una máquina FACS o dos o tres.

FACS es un enfoque de alto rendimiento para identificar, cuantificar, clasificar diferentes tipos de células en una población, así como evaluar su estado de activación y maduración. Típicamente, las sondas FACS son anticuerpos monoclonales (mAb), cada uno específico para una molécula de la superficie celular, conjugado con un fluoróforo. La cantidad de unión de mAb es directamente proporcional al número de moléculas de la superficie celular que son específicas para estar presentes en una célula. Los fluoróforos conjugados con estos mAbs emiten fluorescencia detectable cuando son excitados por un láser, ya que las células se ven obligadas a presentar una sola fila delante de él. Tal emisión de fluorescencia es, por lo tanto, un dato bruto del experimento FACS.

Viejo sombrero ahora, en 2006, mucho después de que FACS se hubiera convertido en una herramienta de inmunología bien establecida, un documento de métodos prosaicos (4) anunció la creación de una herramienta estadística necesaria para resolver adecuadamente los datos de FACS de baja fluorescencia. Su premisa y su enfoque fuertemente argumentado sugirieron que los datos sobre células con fluorescencia de baja a mínima en miles y miles de estudios FACS publicados desde la década de 1980 podrían haber estado sujetos a análisis e interpretación defectuosos (ver más abajo de 5). En general, no es un gran problema, ya que el foco principal de los experimentos es en las células que fluorescen mucho para un marcador celular u otro. Sin embargo, este es un ejemplo saludable de las trampas que pueden acechar dentro de los paquetes estadísticos de instrumentos y tecnologías complejas de ciencias de la vida.

Cortesía estadística del talón de Aquiles de Neuroscience Research Cortesía Imagen de resonancia magnética funcional (fMRI)

Desde la década de 1990, fMRI se ha convertido en una herramienta cada vez más popular en la investigación en neurociencia. Usando un poderoso imán para medir dinámicamente cómo cambia el flujo de oxígeno a diferentes partes del cerebro en respuesta a diferentes factores desencadenantes, hoy en día, incluso los legos saben de fMRI, que incluso se está utilizando para descubrir cómo vender mejor las cosas (6).

Al igual que el mini cataclismo que se produjo en la investigación de inmunología en 2006, la publicación de un artículo de PNAS (Actas de la Academia Nacional de Ciencias) en junio de 2016 (7) aparentemente creó el pandemonio entre muchos neurocientíficos, especialmente entre los especialistas en fMRI. Este documento sugirió que los problemas estadísticos sistemáticos con los paquetes de software de fMRI ampliamente utilizados como AFNI, FSL y SPM conducen constantemente a niveles posiblemente falsos positivos posiblemente inaceptables .

Si bien los neurocientíficos continúan discutiendo exactamente cuántos estudios o análisis pueden ser defectuosos (8, 9, 10), el hecho es que algunas quizás incluso muchas conclusiones extraídas con esta tecnología probablemente no resistan el escrutinio. También es muy poco probable que los aproximadamente 40000 estudios publicados con fMRI se vuelvan a analizar a fondo. Por lo menos, esto deja abierto el problema de no poder distinguir un resultado fMRI totalmente confiable de uno que no lo es.

Bibliografía

1. Stettler, Karin y col. “Especificidad, reactividad cruzada y función de los anticuerpos provocados por la infección por el virus del Zika”. Ciencia (2016): aaf8505. Especificidad, reactividad cruzada y función de los anticuerpos provocados por la infección por el virus del Zika.

2. Lek, Monkol y col. “Análisis de la variación genética que codifica proteínas en 60.706 humanos”. Nature (2016): 030338. http://www.nature.com/nature/jou…;

3. Nakaya, Helder I. y col. “La biología de sistemas de inmunidad a las vacunas trivalentes contra la influenza estacional con adyuvante MF59 versus no adyuvante en la primera infancia”. Actas de la Academia Nacional de Ciencias 113.7 (2016): 1853-1858. http://www.pnas.org/content/113/…, http://www.pnas.org/content/supp…

4. Parks, David R., Mario Roederer y Wayne A. Moore. “Un nuevo método de visualización” Logicle “evita los efectos engañosos de la escala logarítmica para señales bajas y datos compensados”. Citometría Parte A 69.6 (2006): 541-551.

5. Herzenberg, Leonore A., et al. “Interpretación de datos de citometría de flujo: una guía para los perplejos”. Nature Immunology 7.7 (2006): 681-685. http: //rhlccflow.facilities.nort…

6. Scientific American, Anna Vlasits, 3 de agosto de 2016. ¿La ciencia de fMRI está aprendiendo de sus errores?

7. Eklund, Anders, Thomas E. Nichols y Hans Knutsson. “Fracaso del clúster: por qué las inferencias fMRI para extensión espacial han inflado las tasas de falsos positivos”. Actas de la Academia Nacional de Ciencias (2016): 201602413. http://www.pnas.org/content/113/…

8. Kessler, Daniel, Michael Angstadt y Chandra Sripada. “¿Qué hallazgos de la literatura de neuromaging funcional podemos confiar?” preimpresión arXiv arXiv: 1608.01274 (2016). http://arxiv.org/pdf/1608.01274.pdf

9. Cox, Robert W., Richard C. Reynolds y Paul A. Taylor. “AFNI y Clustering: Tasas falsas positivas Redux”. bioRxiv (2016): 065862. http://www.biorxiv.org/content/b…

10. Discover magazine, Neuroskeptic, 7 de julio de 2016, fMRI de falsos positivos llega a The Mainstream – Neuroskeptic

Gracias por el R2A, Josh Marsh.

Personalmente, prefiero usar R. Dicho esto, uso bastantes herramientas diferentes, dependiendo de la tarea en cuestión y de dónde obtuve los datos. Estos son los que uso con más frecuencia:
1) R: Este es mi valor predeterminado personal, aunque estoy seguro de que otros prefieren otras herramientas
2) SAS: a veces en mi trabajo necesito usar SAS para que otros puedan contribuir al mismo proyecto o porque hay programas existentes en SAS que tienen funcionalidad. Por mi parte, prefiero SAS cuando los conjuntos de datos son muy grandes debido a la forma en que SAS usa RAM durante los cálculos en comparación con R.
3) Excel: por mucho que no me guste Excel, puede ser muy eficiente para un análisis sucio muy rápido o si se puede entregar a un cliente, ocasionalmente trabajaré en Excel para facilitarle las cosas a un cliente.
4) SQL: no es una herramienta exclusiva, pero en general, un conocimiento básico de trabajo es muy útil en la industria y puede aprovecharse de R, SAS, SPSS, Python o cualquier otro lenguaje o herramienta que desee utilizar .

En pocas palabras: depende del trabajo, sus preferencias y las preferencias de sus colaboradores. Si está entrando en la industria, la flexibilidad es un gran beneficio. Quizás menos importante en la academia.

Eso depende en gran medida del campo y el análisis. Para pequeños conjuntos de datos y pruebas simples, por ejemplo, tener 2 columnas y desea hacer una prueba t de excel de estudiantes es suficiente y ampliamente utilizado.

Para datos y análisis más importantes (y costosos) y complejos, generalmente se usa R, pero una minoría de científicos habla con fluidez. El uso es especialmente importante si desea extraer conjuntos especiales de los datos o simular tendencias en los datos o hacer gráficos individuales extraordinarios. En equipos más grandes, a menudo tendrá algunos bioinformáticos o médicos estadísticos que generalmente trabajarán con R y Python.

La mayoría de las personas que manejan datos avanzados están de acuerdo en que usar Excel es una mala idea, hay varios problemas con el formateo, la extracción, etc. con los programas de hoja de cálculo.

Los programas SPSS y SAS se encuentran entre Excel y R en relación con la sofisticación, por lo general, son utilizados por científicos sociales, pero a menudo por científicos de la vida que desean realizar análisis estadísticos complejos pero no necesitan el poder de simulación y manipulación de datos que posee R.

Realmente depende del campo en el que estés trabajando. Yo trabajo con BioVinci | Inteligencia de datos para ciencias de la vida. Es nuevo y razonable, pero bastante poderoso, al menos para mí. Si sus datos son algo más pequeños que 50k filas y 100 columnas (eso es lo que afirman), funciona bien.

Para una gran cantidad de investigación en biología molecular, donde la mayoría de los experimentos involucran relativamente pocos grupos experimentales, la mayoría de los investigadores que he encontrado usan Excel de GraphPad Prism. GraphPad hace que el análisis estadístico sea especialmente fácil porque, según su diseño experimental, usted elige el tipo de gráfico y puede elegir fácilmente la prueba estadística adecuada con solo hacer clic en un botón.

Hago investigación profesional en ciencias de la vida y trabajamos aproximadamente el 90% en SAS. Algunos otros investigadores también usan R y Stata, pero creo que una gran mayoría usa SAS. Si está buscando aprender acerca de SAS, visite su sitio web, tienen una versión gratuita del software y cursos de capacitación fantásticos.

Mejor,

Ryan

More Interesting

¿Dónde se pueden encontrar bases de datos de imágenes cerebrales PET?

Cómo explicar la diferencia entre la razón de riesgo y el riesgo relativo para un laico

¿Por qué la vista lateral de una radiografía de tórax tiene mucha más radiación que la vista frontal (PA)? ¿Las radiografías de tórax con 2 vistas no son más riesgosas que una sola PA?

¿Se puede confiar en todos los productos de salud de células madre?

¿Se puede capacitar a las personas para hablar el código Morse a través de parpadeos de manera eficiente?

¿Existe un foro en línea sobre investigación de ensayos clínicos donde las compañías farmacéuticas, CRO y compañías de reclutamiento de pacientes discutan los últimos acontecimientos?

¿Cómo utilizó Stanford las bacterias con genes que relacionan la luz entrante con la polarización de la pared celular para construir una interfaz neuronal de prueba de concepto?

Si un centro de investigación médica realiza pruebas en animales, ¿es ese el mejor indicador de que es un centro muy serio?

¿Por qué Roche disolvió el Instituto de Basilea para Inmunología?

¿Cómo es que los dientes de células madre no se han comenzado en humanos en los EE. UU. Sino que ya se han comenzado en Islandia?

Los perros pequeños viven hasta dos veces más que los perros grandes, entonces, ¿por qué los humanos pequeños no viven tanto tiempo como los humanos grandes?

¿Cuáles son algunas de las universidades / institutos de investigación en la India, donde las células madre son una de las principales áreas de investigación?

¿Cuáles son algunos de los mayores desafíos médicos que enfrenta la humanidad hoy en día?

¿Cómo podrían los telómeros acortados inhibir la función celular?

¿Cómo es ser médico científico?