Para la subtitulación, los humanos siguen siendo la clave de la tecnología accesible impulsada por IA

Humanos clave en tecnología accesible impulsada por IA

El caso a favor de la supervisión humana de los servicios de inteligencia artificial (IA) continúa, con el mundo interrelacionado de la transcripción de audio, los subtítulos y el reconocimiento automático de voz (ASR) sumándose a la solicitud de aplicaciones que complementen, no reemplacen, la entrada humana.

Los subtítulos cumplen un papel vital al proporcionar acceso a medios e información a los espectadores que son sordos o tienen dificultades auditivas, y su uso ha aumentado en popularidad en los últimos años. Los defensores de las personas con discapacidades han abogado por mejores opciones de subtitulado durante décadas, destacando una necesidad que es cada vez más relevante con la proliferación de servicios de transmisión bajo demanda. Las plataformas de video también se han aferrado rápidamente a la IA, con YouTube anunciando pruebas tempranas de una nueva función de IA que resume videos completos y TikTok explorando su propio chatbot.

Entonces, con la creciente locura por la IA como un apoyo a las limitaciones tecnológicas, involucrar las últimas herramientas y servicios de IA en el subtitulado automático podría parecer un siguiente paso lógico.

3Play Media, una empresa de servicios de accesibilidad y subtitulado de videos, se centró en el impacto de las herramientas de IA generativas en los subtítulos utilizados principalmente por los espectadores que son sordos o tienen dificultades auditivas en su informe recientemente publicado “Estado del reconocimiento automático de voz 2023”. Según los hallazgos, los usuarios deben ser conscientes de mucho más que simplemente la precisión cuando se incorporan nuevos servicios de IA de avance rápido.

La precisión del reconocimiento automático de voz

El informe de 3Play Media analizó la tasa de errores de palabras (el número de palabras transcritas con precisión) y la tasa de errores formateados (la precisión tanto de las palabras como del formato en un archivo transcrito) de diferentes motores de ASR, o generadores de subtítulos con IA. Los diversos motores de ASR se incorporan en una variedad de industrias, incluyendo noticias, educación superior y deportes.

“Un ASR de alta calidad no necesariamente conduce a subtítulos de alta calidad”, encontró el informe. “En cuanto a la tasa de errores de palabras, incluso los mejores motores solo tuvieron un rendimiento de alrededor del 90 por ciento de precisión, y en cuanto a la tasa de errores formateados, solo tuvieron un rendimiento de alrededor del 80 por ciento de precisión, ninguno de los cuales es suficiente para el cumplimiento legal y la precisión del 99 por ciento, el estándar de la industria para la accesibilidad”.

La Ley de Estadounidenses con Discapacidades (ADA) requiere que los gobiernos estatales y locales, las empresas y las organizaciones sin fines de lucro que sirven al público “se comuniquen de manera efectiva con las personas que tienen discapacidades de comunicación”, incluyendo servicios de subtítulos cerrados o en tiempo real para personas sordas o con dificultades auditivas. Según las normas de cumplimiento de la Comisión Federal de Comunicaciones (FCC) para la televisión, los subtítulos deben ser precisos, estar sincronizados, ser continuos y estar ubicados correctamente en la “mayor medida posible”.

La precisión de los subtítulos en el conjunto de datos fluctuó mucho en diferentes mercados y casos de uso. “Las noticias, las redes, el cine y los deportes son los más difíciles de transcribir con precisión mediante ASR”, escribe 3Play Media, “ya que estos mercados a menudo tienen contenido con música de fondo, habla superpuesta y audio difícil. Estos mercados tienen las tasas promedio de error más altas tanto para la tasa de errores de palabras como para la tasa de errores formateados, siendo las noticias y las redes las menos precisas”.

Aunque, en general, el rendimiento ha mejorado desde el informe de 2022 de 3Play Media, la empresa encontró que las tasas de error aún eran lo suficientemente altas como para justificar la colaboración de editores humanos en todos los mercados probados.

Mantener a los humanos en el proceso

Los modelos de transcripción en todos los niveles, desde el consumidor hasta el uso industrial, han incorporado el subtitulado de audio generado por IA durante años. Muchos ya utilizan lo que se conoce como sistemas de “humanos en el proceso”, donde un proceso de múltiples pasos incorpora tanto herramientas de ASR (o IA) como editores humanos. Empresas como Rev, otro servicio de subtitulado y transcripción, han destacado la importancia de los editores humanos en la sincronización audiovisual, el formato de pantalla y otros pasos necesarios para hacer que los medios visuales sean completamente accesibles.

El tuit puede haber sido eliminado

Los modelos de “humanos en el proceso” también se han promovido en el desarrollo de IA generativa para monitorear mejor el sesgo implícito en los modelos de IA y guiar la IA generativa con la toma de decisiones liderada por humanos.

La Iniciativa de Accesibilidad Web del Consorcio World Wide Web (W3C) también ha mantenido su postura sobre la supervisión humana, como se señala en su guía para subtítulos. “Los subtítulos generados automáticamente no satisfacen las necesidades de los usuarios ni los requisitos de accesibilidad, a menos que se confirme que son completamente precisos. Por lo general, necesitan una edición significativa”, afirman las pautas de la organización. “Los subtítulos automáticos se pueden utilizar como punto de partida para desarrollar subtítulos y transcripciones precisas”.

Y en un informe de 2021 sobre la importancia de las transcripciones generadas por humanos en tiempo real, 3Play Media señaló preocupaciones similares.

“La inteligencia artificial no tiene la misma capacidad de contextualización que un ser humano, lo que significa que cuando ASR malinterpreta una palabra, existe la posibilidad de que sea reemplazada por algo irrelevante o omitida por completo”, escribe la compañía. “Si bien actualmente no existe un requisito legal definitivo para las tasas de precisión en el subtitulado en vivo, las regulaciones federales y estatales existentes para el subtitulado de contenido grabado establecen que las adaptaciones accesibles deben proporcionar una experiencia igual a la de un espectador auditivo… Si bien ni la inteligencia artificial ni los subtituladores humanos pueden proporcionar un 100% de precisión, los métodos más efectivos de subtitulado en vivo incorporan ambos para acercarse lo más posible”.

Señalando alucinaciones

Además de los números de precisión más bajos utilizando solo ASR, el informe de 3Play Media señaló una preocupación explícita por la posibilidad de “alucinaciones” de la inteligencia artificial, tanto en forma de inexactitudes factuales como en la inclusión de frases completas completamente fabricadas.

En general, las alucinaciones basadas en inteligencia artificial se han convertido en un aspecto central entre una serie de quejas contra el texto generado por IA.

En enero, el vigilante de desinformación NewsGuard publicó un estudio sobre la facilidad de ChatGPT para generar y entregar afirmaciones engañosas a usuarios que se hacen pasar por “malos actores”. Señaló que el bot de IA compartió desinformación sobre eventos de noticias 80 de cada 100 veces en respuesta a indicaciones líderes relacionadas con una muestra de narrativas falsas. En junio, un presentador de radio estadounidense presentó una demanda por difamación contra OpenAI después de que su chatbot, ChatGPT, supuestamente ofreciera “hechos” erróneos sobre el presentador a un usuario que buscaba detalles sobre un caso en un tribunal federal.

Justo el mes pasado, líderes de IA (incluyendo Amazon, Anthropic, Google, Inflection, Meta, Microsoft y OpenAI) se reunieron con la administración Biden-Harris “para avanzar hacia el desarrollo seguro, seguro y transparente de la tecnología de IA” antes de una posible orden ejecutiva sobre el uso responsable de la IA. Todas las compañías presentes firmaron una serie de ocho compromisos para garantizar la seguridad, la confianza y la seguridad pública.

Para la incorporación de la IA en la tecnología cotidiana, y específicamente para los desarrolladores que buscan otras formas de IA generadoras de texto como un camino pavimentado hacia la accesibilidad, las imprecisiones como las alucinaciones representan un riesgo tan grande para los usuarios, explica 3Play Media.

“Desde el punto de vista de la accesibilidad, las alucinaciones presentan un problema aún más grave: la falsa representación de la precisión para los espectadores sordos y con problemas de audición”, explica el informe de 3Play. 3Play escribe que, a pesar del rendimiento impresionante relacionado con la producción de frases bien puntuadas y gramaticales, problemas como las alucinaciones actualmente representan un alto riesgo para los usuarios.

Los líderes de la industria están tratando de abordar las alucinaciones con capacitación continua, y algunos de los líderes más importantes de la tecnología, como Bill Gates, son extremadamente optimistas. Pero aquellos que necesitan servicios accesibles no tienen tiempo para esperar a que los desarrolladores perfeccionen sus sistemas de IA.

“Si bien es posible que estas alucinaciones se reduzcan a través del ajuste fino, las consecuencias negativas para la accesibilidad podrían ser profundas”, concluye el informe de 3Play Media. “Los editores humanos siguen siendo indispensables para producir subtítulos de alta calidad accesibles para nuestros usuarios finales principales: las personas sordas y con problemas de audición”.

¿Quieres más historias sobre el Bien Social y la accesibilidad en tu bandeja de entrada? Regístrate hoy en el boletín de noticias de Mashable’s Top Stories.