Cómo aplicar la ciencia de datos al bien social

Esa es una gran pregunta, y estoy feliz de que sea algo que la gente parece preguntar cada vez más en estos días. La buena noticia es que hay muchas organizaciones surgiendo para ayudar. Aquí hay algunos:

Data Science for Social Good becas: Rayid Ghani, el ex jefe científico de la campaña de Obama de 2012, inició esta beca de verano para estudiantes universitarios y graduados. Atrae a estudiantes de súper alto calibre y los combina en proyectos significativos que realmente satisfacen las necesidades de las organizaciones asociadas. (Divulgación completa: trabajé en análisis en OFA y fui mentor voluntario en la primera clase de DSSG).

http://www.datakind.org/: Otra gran organización que aloja inmersiones de datos y ejecuta un cuerpo de datos a más largo plazo.

http://www.bayesimpact.org/: BayesImpact es un programa relativamente nuevo pero se ve muy bien.

Open Government Chicago (-land): vea si su ciudad organiza una reunión de Open Government como la de Chicago, donde los piratas informáticos se reúnen para trabajar en proyectos y problemas interesantes. Piense en hacer Code for America, aunque está un poco menos centrado en la ciencia de datos que la tecnología general.

https://civisanalytics.com/: ven a trabajar con nosotros en Civis Analytics. Ayudamos a campañas políticas, organizaciones sin fines de lucro, y sí, algunas compañías también aplican análisis de datos para resolver sus problemas más difíciles.

Otra gran cosa que debe hacer: conocer a las personas que trabajan en organizaciones sin fines de lucro que le interesan. Hable con ellos, descubra dónde están luchando, qué herramientas podrían usar y cómo puede ayudar. Esta construcción de relaciones a largo plazo es realmente la clave para descubrir cómo la ciencia de datos puede ayudar a hacer el bien social. No se trata solo de herramientas o algoritmos sofisticados (de hecho, la mayoría de las veces no lo es). Se trata de comprender dónde los datos pueden caber en una organización de manera más inteligente para hacer el mejor bien.

Michelangelo D’Agostino ha proporcionado una excelente respuesta al sugerir formas en que uno podría aplicar sus habilidades a la ciencia de datos para el bien social.

Como miembro del DSSG 2014 que todavía está trabajando actualmente en algunos proyectos de datos con gobiernos municipales y distritos escolares, me gustaría hacer algunas observaciones sobre algunos matices en la aplicación de la ciencia de datos en el sector de la tecnología privada, en comparación con los problemas de bien social.

A continuación hay algo que escribí durante mi verano, al reflexionar sobre este tema. ¡Ojalá sea útil para los demás!

Por qué hacer ciencia de datos en organizaciones sin fines de lucro es diferente de la industria

Uno de los socios sin fines de lucro con los que trabaja mi equipo llegó a la oficina la semana pasada. Compartieron con nosotros el problema general que enfrentan como organización y cómo esperaban que nuestro equipo pudiera arrojar algo de luz sobre las posibles respuestas. [1]

Después de escuchar y reflexionar sobre las necesidades de nuestro socio, he llegado a ver que las soluciones a sus problemas probablemente no sean tan técnicamente sofisticadas. Lo que la organización sin fines de lucro necesita no es un modelo complejo que se alimente de miles de variables y millones de puntos de datos. Después de hablar con algunos de los otros Fellows, esta observación parece ser ampliamente aplicable a muchos de los otros proyectos.

Desde entonces, he estado cristalizando una serie de observaciones sobre cómo la ciencia de datos, tal como se practica en el espacio sin fines de lucro, puede ser notablemente diferente de la ciencia de datos de la industria.

Necesidades
En la industria de la tecnología, las nuevas empresas y las empresas pueden aprovechar la ciencia de los datos para obtener grandes ganancias. El equipo de ciencia de datos de Airbnb extrae el rico conjunto de datos de host-visitante para construir modelos de probabilidad condicional que estiman la probabilidad de que un usuario reserve en un vecindario en particular. La startup educativa Knewton usa filtros de Kalman para estimar la capacidad de los estudiantes.
Sin embargo, en general, las organizaciones sin fines de lucro interesadas en la ciencia de datos no suelen estar buscando técnicas técnicas. Por el contrario, las necesidades de estas organizaciones parecen muy sencillas y pueden resolverse con técnicas comunes.

Mi socio del proyecto está pidiendo una evaluación de los programas de apoyo social que elaboraron, para que puedan tomar decisiones informadas sobre dónde asignar los fondos federales. Gran parte de eso significa hacer análisis estadísticos simples, como mirar porcentajes, hacer análisis de cohortes y calcular las tasas de supervivencia.

Parece que no hay ninguna matemática para introducir aquí. No es necesario desarrollar los algoritmos de aprendizaje automático más avanzados.
Para ser justos, esto no es algo que solo sea cierto para el espacio sin fines de lucro. Muchas empresas con fines de lucro tampoco necesitan equipos sofisticados de ciencia de datos. Escuché que incluso ahora, el equipo de datos de Dropbox se compone de solo tres personas. Sin embargo, apostaría a que tener un doctorado en aprendizaje automático le ayudaría a resolver más problemas en, digamos, Google que en la Fundación Nacional del Cáncer de Mama.

¿Dónde están los datos?
Más allá de la cuestión de las necesidades, un componente clave para llevar a cabo una ciencia de datos eficaz es tener una gran cantidad de datos de calidad. Incluso si los objetivos de las organizaciones sin fines de lucro requerían técnicas complejas, los algoritmos de aprendizaje automático realmente logran encontrar patrones cuando se alimentan con grandes volúmenes (piense en giga o petabytes) de datos de alta calidad.

Desafortunadamente para muchas organizaciones sin fines de lucro (y también para empresas con fines de lucro), esto es un factor decisivo.

Las organizaciones sin fines de lucro a menudo se lanzan para promover una causa social digna de elogio. Recaudan dinero de donantes individuales, subvenciones de fundaciones u otras donaciones caritativas para financiar su organización. Sin embargo, como las organizaciones sin fines de lucro a menudo no venden directamente un producto o servicio, deben apelar al patetismo emocional o las creencias moralistas de los donantes. Como resultado, las anécdotas y las historias personales poderosas son fuerzas más poderosas en un arsenal sin fines de lucro que las métricas o los datos.

Y para ser justos, esto es muy comprensible. Después de todo, es difícil medir exactamente cuánta tutoría efectiva está ocurriendo como resultado de su organización. [2] O si las mujeres están siendo empoderadas efectivamente. O si las personas están viviendo vidas más autorrealizadas. Estas misiones simplemente no se prestan fácilmente a la medida.

Sin embargo, todo esto plantea un problema para aplicar la ciencia de datos.
Nuestro socio solo se ha centrado en recopilar datos de manera confiable durante los últimos dos años. Antes de eso, hubo una entrada de datos, pero se realizó como una ocurrencia tardía. El proceso de recopilación de datos también ocurre solo en raras ocasiones: cuando un paciente ingresa o sale de un programa de servicio social.

Hay poca información sobre cómo le está yendo a un paciente durante el programa.

Como resultado, los datos que tenemos son bastante escasos, sucios y solo pueden proporcionar una perspectiva limitada para evaluar la efectividad de los programas sociales.
(Afortunadamente, hay algunos movimientos para otorgar mayor importancia a las métricas en el espacio sin fines de lucro. Estos incluyen algunos como la filantropía basada en resultados y el altruismo efectivo).

Cajas negras
En un artículo seminal de 1993, el investigador de aprendizaje automático Robert Holte analizó el rendimiento de una variedad de técnicas diferentes de aprendizaje automático en conjuntos de datos comunes. Sorprendentemente, reveló que los métodos simples que estudió, basados ​​en el análisis de una sola variable en los datos, “son casi tan precisos como las reglas más complejas” ¡observando muchas más variables! Esto lo llevó a concluir que cualquier “complejidad adicional debe estar justificada” en los modelos de aprendizaje automático. [3]

En ninguna parte esta declaración me ha sido más clara que trabajar con organizaciones sin fines de lucro.

Es probable que la mayoría de las organizaciones sin fines de lucro nunca hayan oído hablar de ninguno de los algoritmos que están de moda en el campo de la ciencia de datos en la actualidad. Como resultado, las personas en estas organizaciones sin fines de lucro pueden ser reacias a tocar e intimidarse con los métodos de caja negra, lo que puede dar lugar a situaciones en las que mi pareja nunca toque nada que construya para ellos.
Las advertencias de Holte sobre la complejidad sin justificación suenan aún más aquí. Incluso la herramienta más impresionante solo es valiosa si otros confían en ella lo suficiente como para usarla. Esta comprensión me motiva a crear algo que cumpla con las organizaciones sin fines de lucro a su nivel, en lugar de caer en la sofisticación por el bien de la sofisticación.

Conclusión
Como miembro de DSSG este verano, espero crear y enviar algo que pueda usarse con éxito para avanzar en las causas de las organizaciones sin fines de lucro visionarias con las que estoy trabajando.

A medida que avance durante el verano, será importante que tenga en cuenta que habrá muchas dificultades particulares para el espacio sin fines de lucro que mi equipo y yo tendremos que navegar con cuidado. Debemos aprender a lidiar efectivamente con conjuntos de datos escasos y empobrecidos, así como a negociar la tensión de construir algo que sea lo suficientemente complejo como para resolver un problema desafiante, mientras que sea lo suficientemente simple como para que los tomadores de decisiones confíen en él.

Notas al pie
[1] Podré compartir más detalles sobre mi proyecto y mis socios en publicaciones futuras.
[2] Esto proviene de la experiencia personal como alguien que fundó y dirigió un programa nacional de tutoría entre pares sin fines de lucro durante 3 años.
[3] Robert Holte, “Las reglas de clasificación muy simples funcionan bien en los conjuntos de datos más utilizados” (1993)

Agregando a la lista de Michelangelo D’Agostino:

Competiciones
– Busque buenas competencias sociales en http://www.kaggle.com
– Participa en concursos en DrivenData (= Kaggle por el bien social)

Meetups
Verifique si hay una reunión cercana que haga ciencia de datos para el bien social (por ejemplo, La Comunidad de Ciencia de Datos de Bruselas)

Colecciones de proyectos
http://dataforgood.io tiene que ver con proyectos basados ​​en datos para el bien social y ponerse en contacto con los propietarios de proyectos (*). Los proyectos de ciencia de datos puros se pueden encontrar en la categoría “Análisis”. Siéntase libre de registrarse y exhibir sus proyectos favoritos allí.

(*) Pronto tendremos una función que muestra dónde se han unido los propietarios del proyecto a la discusión.

Michelangelo D’Agostino escribió:

“Conozca a las personas que trabajan en organizaciones sin fines de lucro que le interesan”.

http://dataforgood.io es una plataforma donde puedes hacer exactamente eso. Las organizaciones sin fines de lucro pueden publicar que necesitan ayuda con un proyecto usando la categoría “Ayúdanos”. Y los científicos de datos interesados ​​pueden usar la plataforma para ponerse en contacto con ellos.

Varias organizaciones en todo el mundo están tratando de aprovechar el poder de la ciencia de datos para el bien social. La disponibilidad de herramientas y técnicas analíticas avanzadas ayuda a los científicos sociales a desarrollar soluciones efectivas a problemas del mundo real.

Por ejemplo, HealthMap, una herramienta de mapeo, ayudó a identificar el Ébola antes de que se informara oficialmente. Nueva York está utilizando grandes datos para identificar edificios propensos a incendios y hacer que la ciudad sea más segura. Lea más aquí sobre cómo los científicos sociales pueden aprovechar el poder de los grandes datos y análisis.

Comenzaría mirando 10 ejemplos de creatividad y tecnología que se unen por el bien social. Hay varias maneras en que la tecnología es un gran impulsor del bien social. El omniprocesador Janicki de Microsoft, que convierte las heces en agua potable y energía, es un ejemplo. Las botellas de agua biodegradables de algas son otra.

Dssg.io

Lea los datos del Banco Mundial e infiera.

Lea los datos del FMI e infiera sugerencias de formulación de políticas