Asumiendo que las personas tienden a equiparar la ciencia de datos y el big data + machine learning, parece que no lo es.
¿Big data y machine learning en investigación clínica? No lo creo. Este es el dominio de (muy) “datos pequeños”. Incluso la regresión logística simple necesita datos de domo si hay más de un predictor. Esta es la regla: cuantos más predictores tenga, más datos necesitará.
En Big Data, está contento de tener miles de millones de registros; en cambio, en la investigación clínica, trata de minimizar la cantidad de sujetos tanto como sea posible por razones de seguridad y económicas, pero sigue siendo confiable en sus cálculos.
- Cómo dedicarme a la investigación científica.
- ¿Cuál es el tema más candente para la investigación en el dominio de la combustión?
- ¿Cuál es la verdadera razón detrás de los límites que se imponen (o límites percibidos) en la búsqueda de una carrera en matemática pura?
- ¿Cuál es la mejor manera de investigar por qué algo falló?
- ¿Cuál es la mejor plataforma donde puedo enviar mi trabajo de investigación en Android?
Por supuesto, algunos métodos, como la regresión múltiple (generalmente modelos mixtos, GEE), los métodos de agrupamiento pueden usarse para detectar algunos patrones en los datos, pero esto es aplicable más bien en la medicina basada en evidencia, donde el análisis exploratorio es más común. En la investigación clínica no se juega con estas cosas, sino que se trata de hipótesis y estadísticas a priori, estadísticas puras: tanto descriptivas como inferenciales.
También estoy explicando este tema aquí: la respuesta de Adrian Olszewski a ¿Por qué tantos estadísticos no quieren convertirse en científicos de datos? ¿Por qué no están interesados en Big Data?