En la investigación clínica, generalmente jugamos con “datos pequeños” en lugar de “datos grandes”. Cada ensayo (si no es completamente descriptivo en su naturaleza) comienza con un procedimiento de ” determinación del tamaño de la muestra “. Queremos recopilar la menor cantidad de datos posible para lograr la potencia requerida para detectar el efecto esperado. Esto es bastante diferente que en el “mundo de big data”, ¿no?
Desde aproximadamente 10 observaciones en la fase 0, pocas docenas en la fase I, pocos cientos en la fase II hasta unos pocos miles en la fase III.
Esto es causado por:
- ¿Cómo tratan los ensayos clínicos doble ciego con la falta de adherencia al tratamiento entre ciertos sujetos? ¿Cómo se puede detectar, medir y compensar esto?
- Si se realiza un trasplante de cerebro en un individuo, ¿se transferirían todos los recuerdos del donante al receptor?
- ¿Cuáles son las mejores conferencias médicas del mundo?
- Condiciones neurológicas: ¿Por qué tardan tanto los experimentos médicos realizados in vitro o en ratones en humanos?
- ¿Por qué es importante la regulación de la sal para las personas con hipertensión renal?
- razones éticas : tratamos a las personas vivas, por lo que queremos evitar la exposición humana a la terapia no probada tanto como sea posible. O, en ensayos controlados con placebo, en algunas enfermedades graves, puede ser poco ético tratar a las personas con placebo o con una terapia que sabemos que es peor que la nueva. Estas son solo dos razones, pero de hecho, puede haber muchas razones éticas (dependientes de la situación) para limitar el número de pacientes.
- rareza de una enfermedad: a veces es difícil encontrar incluso 10 pacientes con alguna enfermedad
- gran abandono : las personas renuncian a una terapia, mueren o experimentan eventos adversos graves, que pueden terminar el proceso para un determinado paciente o interrumpir por completo el ensayo completo.
- razones de costo : consume mucho dinero organizar una prueba. Cada paciente cuenta.
- razones estadísticas : con un tamaño de muestra suficientemente grande, puede encontrar cualquier efecto significativo. Es por eso que necesitamos un “significado clínico” y el “efecto mínimo clínicamente significativo”. Teniendo esto, vemos que no es necesario un tamaño de muestra mayor que, digamos, 100 pacientes. Por lo tanto, no es necesario recopilar “big data”.
El único lugar, donde se pueden encontrar grandes datos, son los ensayos de fase IV (postcomercialización) en el mercado global. Se realizan para confirmar el perfil de seguridad de un medicamento durante las ventas. Pero no espere ningún algoritmo de “aprendizaje automático” o métodos sofisticados.
Sí, los bioestadísticos utilizan a veces métodos avanzados y multidimensionales (que los científicos de datos adaptaron en big data) en busca de fraude y mala conducta, en otras palabras, patrones preocupantes. Hacemos esto mientras cooperamos con Data Management, antes de que la base de datos se bloquee. Pero aún así, operamos en conjuntos de datos muy pequeños.