Los algoritmos de IA están sesgados contra la piel con tonos amarillos

Los algoritmos de IA son sesgados contra la piel amarilla

Después de que en 2018 surgieran pruebas de que los algoritmos líderes de análisis facial eran menos precisos para las personas de piel más oscura, empresas como Google y Meta adoptaron medidas de tono de piel para probar la eficacia de su software de inteligencia artificial. Una nueva investigación de Sony sugiere que esas pruebas pasan por alto un aspecto crucial de la diversidad del color de piel humano.

Según los investigadores de Sony, al expresar el tono de piel usando solo una escala deslizante de más claro a más oscuro o de blanco a negro, las medidas comunes de hoy en día ignoran la contribución de los tonos amarillos y rojos a la gama de colores de piel humana. Descubrieron que los sistemas de IA generativos, los algoritmos de recorte de imágenes y las herramientas de análisis de fotos tienen dificultades, en particular, con la piel más amarilla. La misma debilidad podría aplicarse a una variedad de tecnologías cuya precisión se ve afectada por el color de piel, como el software de IA para reconocimiento facial, seguimiento corporal y detección de deepfakes, o dispositivos como monitores de ritmo cardíaco y detectores de movimiento.

“Si los productos solo se evalúan de esta manera unidimensional, habrá muchos sesgos que pasarán desapercibidos y no se mitigarán”, dice Alice Xiang, científica investigadora principal y jefa global de Ética de IA en Sony. “Nuestra esperanza es que el trabajo que estamos haciendo aquí pueda ayudar a reemplazar algunas de las escalas de tono de piel existentes que realmente se centran solo en claro versus oscuro”.

Pero no todos están tan seguros de que las opciones existentes sean insuficientes para calificar los sistemas de IA. Ellis Monk, sociólogo de la Universidad de Harvard, dice que una paleta de 10 tonos de piel que ofrece opciones de claro a oscuro que introdujo junto con Google el año pasado no es unidimensional. “Debo admitir que me desconcierta un poco la afirmación de que la investigación previa en esta área ignoró los matices y tonos”, dice Monk, cuya escala de tonos de piel Monk Google pone a disposición de otros para su uso. “La investigación se dedicó a decidir qué matices priorizar a lo largo de la escala y en qué puntos”. Él eligió los 10 tonos de piel en su escala basándose en sus propios estudios sobre el colorismo y después de consultar con otros expertos y personas de comunidades subrepresentadas.

X. Eyeé, CEO de la consultoría de ética de IA Malo Santo y quien anteriormente fundó el equipo de investigación de tono de piel de Google, dice que la escala Monk nunca se pretendió como una solución final y califica el trabajo de Sony como un progreso importante. Pero Eyeé también advierte que la posición de la cámara afecta los valores de color CIELAB en una imagen, uno de varios problemas que hacen que el estándar sea un punto de referencia potencialmente poco confiable. “Antes de activar la medición del tono de piel en algoritmos de IA del mundo real, como filtros de cámara y videoconferencias, se necesita más trabajo para garantizar una medición consistente”, dice Eyeé.

La disputa sobre las escalas es más que académica. Encontrar medidas adecuadas de “equidad”, como lo llaman los investigadores de IA, es una prioridad importante para la industria tecnológica, ya que los legisladores, incluidos los de la Unión Europea y Estados Unidos, debaten la posibilidad de exigir a las empresas que auditen sus sistemas de IA y señalen los riesgos y defectos. Los investigadores de Sony afirman que los métodos de evaluación deficientes podrían erosionar algunos de los beneficios prácticos de las regulaciones.

En cuanto al color de piel, Xiang dice que los esfuerzos por desarrollar medidas adicionales y mejoradas serán interminables. “Necesitamos seguir intentando progresar”, dice ella. Monk dice que diferentes medidas podrían resultar útiles según la situación. “Me alegra mucho que haya un creciente interés en esta área después de un largo período de negligencia”, dice él. Brian Gabriel, portavoz de Google, dice que la compañía da la bienvenida a la nueva investigación y la está revisando.

Si los productos solo se evalúan de esta manera unidimensional, los sesgos pasarán desapercibidos y no se mitigarán

El color de piel de una persona proviene de la interacción de la luz con proteínas, células sanguíneas y pigmentos como la melanina. La forma estándar de probar algoritmos en busca de sesgos causados por el color de piel ha sido verificar cómo se desempeñan en diferentes tonos de piel, a lo largo de una escala de seis opciones que va desde el más claro hasta el más oscuro, conocida como escala de Fitzpatrick. Originalmente fue desarrollada por un dermatólogo para estimar la respuesta de la piel a la luz ultravioleta. El año pasado, los investigadores de IA de diversas empresas tecnológicas aplaudieron la introducción de la escala Monk por parte de Google, considerándola más inclusiva.

Los investigadores de Sony dicen en un estudio que se presentará en la Conferencia Internacional sobre Visión por Computadora en París esta semana que un estándar de color internacional conocido como CIELAB, utilizado en la edición de fotos y la fabricación, indica una forma aún más fiel de representar el amplio espectro de la piel. Cuando aplicaron el estándar CIELAB para analizar fotos de diferentes personas, descubrieron que su piel no solo variaba en tono, sino también en matiz o gradación del mismo.

Parece que las escalas de color de piel que no capturan adecuadamente los matices rojos y amarillos de la piel humana han ayudado a que algunos sesgos permanezcan sin detectar en los algoritmos de imágenes. Cuando los investigadores de Sony probaron sistemas de IA de código abierto, incluido un recortador de imágenes desarrollado por Twitter y un par de algoritmos generadores de imágenes, encontraron una preferencia por la piel más roja, lo que significa que hay un gran número de personas cuya piel tiene más tonos amarillos que están subrepresentadas en las imágenes finales generadas por los algoritmos. Eso podría poner en desventaja a varias poblaciones, incluidas las de Asia Oriental, Asia del Sur, América Latina y Oriente Medio.

Los investigadores de Sony propusieron una nueva forma de representar el color de la piel para capturar esa diversidad que anteriormente se ignoraba. Su sistema describe el color de la piel en una imagen utilizando dos coordenadas, en lugar de un solo número. Especifica tanto un lugar a lo largo de una escala de claro a oscuro, como en un continuo de amarillento a rojizo, o lo que la industria cosmética a veces llama tonos cálidos a fríos.

El nuevo método funciona aislando todos los píxeles en una imagen que muestran piel, convirtiendo los valores de color RGB de cada píxel en códigos CIELAB, y calculando un tono y una tonalidad promedio en grupos de píxeles de piel. Un ejemplo en el estudio muestra imágenes aparentes de primeros planos del exjugador de fútbol americano Terrell Owens y la fallecida actriz Eva Gabor compartiendo un tono de piel pero separados por matiz, con la imagen de Owens más rojiza y la de Gabor más amarilla.

Las escalas de color que no capturan adecuadamente los tonos rojos y amarillos de la piel humana han contribuido a que los sesgos pasen desapercibidos en los algoritmos de imágenes.

Cuando el equipo de Sony aplicó su enfoque a los sistemas de datos e IA disponibles en línea, encontraron problemas significativos. CelebAMask-HQ, un conjunto de datos popular de rostros de celebridades utilizado para entrenar reconocimiento facial y otros programas de visión por computadora, tenía el 82 por ciento de sus imágenes sesgadas hacia tonos de piel rojizos, y otro conjunto de datos llamado FFHQ, desarrollado por Nvidia, tenía un sesgo del 66 por ciento hacia el lado rojo, según encontraron los investigadores. Dos modelos de IA generativos entrenados con FFHQ reprodujeron el sesgo: aproximadamente cuatro de cada cinco imágenes que generaron tenían tonos rojizos.

No se detuvo ahí. Los programas de IA ArcFace, FaceNet y Dlib funcionaron mejor en tonos de piel más rojizos cuando se les pidió identificar si dos retratos correspondían a la misma persona, según el estudio de Sony. Davis King, el desarrollador que creó Dlib, dice que no le sorprende el sesgo porque el modelo se entrena principalmente con imágenes de celebridades estadounidenses. Las herramientas de IA en la nube de Microsoft Azure y Amazon Web Services para detectar sonrisas también funcionaron mejor en tonos más rojizos. Nvidia se negó a hacer comentarios, y Microsoft y Amazon no respondieron a las solicitudes de comentarios.

Como persona con tono de piel amarillento, descubrir las limitaciones de la forma en que se prueba la IA hoy en día preocupa a Xiang. Ella dice que Sony analizará sus propios modelos de visión por computadora centrados en humanos utilizando el nuevo sistema cuando sean revisados, aunque se negó a especificar cuáles. “Todos tenemos tonos de piel tan diferentes. Esto no debería ser algo que se use para discriminarnos”, dice.

El enfoque de Sony tiene una ventaja adicional potencial. Medidas como la escala Monk de Google requieren que los humanos categoricen en qué parte del espectro se ajusta la piel de una persona en particular. Los desarrolladores de IA dicen que esto introduce variabilidad, porque la percepción de las personas se ve afectada por su ubicación o sus concepciones de raza e identidad.

El enfoque de Sony es totalmente automatizado, no se requiere juicio humano. Sin embargo, Monk de Harvard cuestiona si eso es mejor. Las medidas objetivas como las de Sony podrían terminar simplificando o ignorando otras complejidades de la diversidad humana. “Si nuestro objetivo es eliminar el sesgo, que también es un fenómeno social, entonces no estoy tan seguro de que deberíamos eliminar cómo los humanos perciben socialmente el tono de piel de nuestro análisis”, dice.

Joanne Rondilla, una socióloga de la Universidad Estatal de San José que ha estudiado el colorismo y las comunidades asiáticoamericanas, dice que aprecia el intento de Sony de considerar los tonos. También espera que los desarrolladores de IA colaboren con científicos sociales para considerar cómo la política, las estructuras de poder y dimensiones sociales adicionales afectan las percepciones del color de la piel. La escala “desarrollada a través del proyecto de Sony puede ayudar a los académicos a comprender los problemas del colorismo”, dice.

Xiang de Sony reconoce que el colorismo está inevitablemente arraigado en cómo los humanos discuten y piensan sobre la piel. En última instancia, no son solo las máquinas las que necesitan ver los colores de manera diferente. Ella tiene la esperanza de que el campo pueda mejorar, pero también es consciente de que el progreso no será necesariamente fácil. Aunque los investigadores de IA como ella han presionado para que el campo tenga una visión más matizada del género, muchos estudios se limitan a clasificar a cada persona en la categoría binaria de hombre o mujer.

“Estos procesos enormemente problemáticos derivan de este deseo muy fuerte de poner a las personas en los grupos mínimos posibles que necesitas para obtener una evaluación justa y superar algún tipo de prueba”, dice Xiang. Hay valor en la simplicidad, dice, pero agregar nuevas dimensiones es importante cuando el acto de hacer que las personas sean legibles por las máquinas termina ocultando su verdadera diversidad.