Michelangelo D’Agostino ha proporcionado una excelente respuesta al sugerir formas en que uno podría aplicar sus habilidades a la ciencia de datos para el bien social.
Como miembro del DSSG 2014 que todavía está trabajando actualmente en algunos proyectos de datos con gobiernos municipales y distritos escolares, me gustaría hacer algunas observaciones sobre algunos matices en la aplicación de la ciencia de datos en el sector de la tecnología privada, en comparación con los problemas de bien social.
A continuación hay algo que escribí durante mi verano, al reflexionar sobre este tema. ¡Ojalá sea útil para los demás!
Por qué hacer ciencia de datos en organizaciones sin fines de lucro es diferente de la industria
Uno de los socios sin fines de lucro con los que trabaja mi equipo llegó a la oficina la semana pasada. Compartieron con nosotros el problema general que enfrentan como organización y cómo esperaban que nuestro equipo pudiera arrojar algo de luz sobre las posibles respuestas. [1]
Después de escuchar y reflexionar sobre las necesidades de nuestro socio, he llegado a ver que las soluciones a sus problemas probablemente no sean tan técnicamente sofisticadas. Lo que la organización sin fines de lucro necesita no es un modelo complejo que se alimente de miles de variables y millones de puntos de datos. Después de hablar con algunos de los otros Fellows, esta observación parece ser ampliamente aplicable a muchos de los otros proyectos.
Desde entonces, he estado cristalizando una serie de observaciones sobre cómo la ciencia de datos, tal como se practica en el espacio sin fines de lucro, puede ser notablemente diferente de la ciencia de datos de la industria.
Necesidades
En la industria de la tecnología, las nuevas empresas y las empresas pueden aprovechar la ciencia de los datos para obtener grandes ganancias. El equipo de ciencia de datos de Airbnb extrae el rico conjunto de datos de host-visitante para construir modelos de probabilidad condicional que estiman la probabilidad de que un usuario reserve en un vecindario en particular. La startup educativa Knewton usa filtros de Kalman para estimar la capacidad de los estudiantes.
Sin embargo, en general, las organizaciones sin fines de lucro interesadas en la ciencia de datos no suelen estar buscando técnicas técnicas. Por el contrario, las necesidades de estas organizaciones parecen muy sencillas y pueden resolverse con técnicas comunes.
Mi socio del proyecto está pidiendo una evaluación de los programas de apoyo social que elaboraron, para que puedan tomar decisiones informadas sobre dónde asignar los fondos federales. Gran parte de eso significa hacer análisis estadísticos simples, como mirar porcentajes, hacer análisis de cohortes y calcular las tasas de supervivencia.
Parece que no hay ninguna matemática para introducir aquí. No es necesario desarrollar los algoritmos de aprendizaje automático más avanzados.
Para ser justos, esto no es algo que solo sea cierto para el espacio sin fines de lucro. Muchas empresas con fines de lucro tampoco necesitan equipos sofisticados de ciencia de datos. Escuché que incluso ahora, el equipo de datos de Dropbox se compone de solo tres personas. Sin embargo, apostaría a que tener un doctorado en aprendizaje automático le ayudaría a resolver más problemas en, digamos, Google que en la Fundación Nacional del Cáncer de Mama.
¿Dónde están los datos?
Más allá de la cuestión de las necesidades, un componente clave para llevar a cabo una ciencia de datos eficaz es tener una gran cantidad de datos de calidad. Incluso si los objetivos de las organizaciones sin fines de lucro requerían técnicas complejas, los algoritmos de aprendizaje automático realmente logran encontrar patrones cuando se alimentan con grandes volúmenes (piense en giga o petabytes) de datos de alta calidad.
Desafortunadamente para muchas organizaciones sin fines de lucro (y también para empresas con fines de lucro), esto es un factor decisivo.
Las organizaciones sin fines de lucro a menudo se lanzan para promover una causa social digna de elogio. Recaudan dinero de donantes individuales, subvenciones de fundaciones u otras donaciones caritativas para financiar su organización. Sin embargo, como las organizaciones sin fines de lucro a menudo no venden directamente un producto o servicio, deben apelar al patetismo emocional o las creencias moralistas de los donantes. Como resultado, las anécdotas y las historias personales poderosas son fuerzas más poderosas en un arsenal sin fines de lucro que las métricas o los datos.
Y para ser justos, esto es muy comprensible. Después de todo, es difícil medir exactamente cuánta tutoría efectiva está ocurriendo como resultado de su organización. [2] O si las mujeres están siendo empoderadas efectivamente. O si las personas están viviendo vidas más autorrealizadas. Estas misiones simplemente no se prestan fácilmente a la medida.
Sin embargo, todo esto plantea un problema para aplicar la ciencia de datos.
Nuestro socio solo se ha centrado en recopilar datos de manera confiable durante los últimos dos años. Antes de eso, hubo una entrada de datos, pero se realizó como una ocurrencia tardía. El proceso de recopilación de datos también ocurre solo en raras ocasiones: cuando un paciente ingresa o sale de un programa de servicio social.
Hay poca información sobre cómo le está yendo a un paciente durante el programa.
Como resultado, los datos que tenemos son bastante escasos, sucios y solo pueden proporcionar una perspectiva limitada para evaluar la efectividad de los programas sociales.
(Afortunadamente, hay algunos movimientos para otorgar mayor importancia a las métricas en el espacio sin fines de lucro. Estos incluyen algunos como la filantropía basada en resultados y el altruismo efectivo).
Cajas negras
En un artículo seminal de 1993, el investigador de aprendizaje automático Robert Holte analizó el rendimiento de una variedad de técnicas diferentes de aprendizaje automático en conjuntos de datos comunes. Sorprendentemente, reveló que los métodos simples que estudió, basados en el análisis de una sola variable en los datos, “son casi tan precisos como las reglas más complejas” ¡observando muchas más variables! Esto lo llevó a concluir que cualquier “complejidad adicional debe estar justificada” en los modelos de aprendizaje automático. [3]
En ninguna parte esta declaración me ha sido más clara que trabajar con organizaciones sin fines de lucro.
Es probable que la mayoría de las organizaciones sin fines de lucro nunca hayan oído hablar de ninguno de los algoritmos que están de moda en el campo de la ciencia de datos en la actualidad. Como resultado, las personas en estas organizaciones sin fines de lucro pueden ser reacias a tocar e intimidarse con los métodos de caja negra, lo que puede dar lugar a situaciones en las que mi pareja nunca toque nada que construya para ellos.
Las advertencias de Holte sobre la complejidad sin justificación suenan aún más aquí. Incluso la herramienta más impresionante solo es valiosa si otros confían en ella lo suficiente como para usarla. Esta comprensión me motiva a crear algo que cumpla con las organizaciones sin fines de lucro a su nivel, en lugar de caer en la sofisticación por el bien de la sofisticación.
Conclusión
Como miembro de DSSG este verano, espero crear y enviar algo que pueda usarse con éxito para avanzar en las causas de las organizaciones sin fines de lucro visionarias con las que estoy trabajando.
A medida que avance durante el verano, será importante que tenga en cuenta que habrá muchas dificultades particulares para el espacio sin fines de lucro que mi equipo y yo tendremos que navegar con cuidado. Debemos aprender a lidiar efectivamente con conjuntos de datos escasos y empobrecidos, así como a negociar la tensión de construir algo que sea lo suficientemente complejo como para resolver un problema desafiante, mientras que sea lo suficientemente simple como para que los tomadores de decisiones confíen en él.
Notas al pie
[1] Podré compartir más detalles sobre mi proyecto y mis socios en publicaciones futuras.
[2] Esto proviene de la experiencia personal como alguien que fundó y dirigió un programa nacional de tutoría entre pares sin fines de lucro durante 3 años.
[3] Robert Holte, “Las reglas de clasificación muy simples funcionan bien en los conjuntos de datos más utilizados” (1993)