La nueva transcripción de IA y expansión sin servidor de Amazon

La próxima generación de transcripción de inteligencia artificial y expansión sin servidor de Amazon

Amazon Web Services (AWS) recientemente anunció importantes expansiones a Amazon Transcribe, su servicio de reconocimiento automático de voz basado en la nube, permitiendo la transcripción en más de 100 idiomas. Las nuevas capacidades utilizan modelos generativos de IA que han sido entrenados con millones de horas de datos de voz, según una publicación de blog de Amazon.

Anteriormente, Amazon Transcribe admitía 79 idiomas con tasas de precisión del 20-50%. Los nuevos algoritmos auto-supervisados que impulsan el servicio de transcripción ahora pueden reconocer patrones únicos de habla y acentos en una amplia gama de idiomas. Esto evita la sobre-representación de idiomas particulares en los datos de entrenamiento, asegurando que la precisión sea consistente independientemente de cuán utilizado sea un idioma.

La automatización de la transcripción de IA ampliará la capacidad de las grandes poblaciones de tener palabras en su propio idioma.

Los avances de la IA amplían significativamente la accesibilidad de la transcripción automática, que anteriormente solo estaba disponible para idiomas comunes como el inglés y el español. Los clientes de AWS ahora pueden aprovechar el servicio en todo el mundo, construyendo aplicaciones que requieran capacidades de conversión de voz a texto.

Funciones como puntuación automática, vocabulario personalizado, identificación de idioma y filtrado de contenido brindan usabilidad adicional para traducir tanto grabaciones de audio como de video. Según los informes, las transcripciones pueden comprender el habla incluso en entornos ruidosos, lo que hace que la tecnología sea ideal para resumir interacciones en centros de llamadas.

La plataforma de análisis de llamadas de AWS ya utiliza Amazon Transcribe para generar resúmenes automáticos de las transcripciones de llamadas entre agentes y clientes. Esto reduce el esfuerzo manual necesario para interpretar llamadas y extraer información relevante. Los expertos de la industria creen que a medida que mejore la precisión del reconocimiento de voz, se acelerará la integración de estos servicios de IA en diversas aplicaciones empresariales.

Amazon Transcribe sigue siendo un jugador importante en la transcripción en la nube.

Aunque Amazon Transcribe sigue siendo un actor importante en el espacio de la transcripción en la nube, enfrenta una creciente competencia de empresas como Otter.ai, que ofrece sus propias funciones de resumen de IA. También hay un creciente interés en el reconocimiento de voz por parte de importantes jugadores tecnológicos como Meta, que está desarrollando un modelo de traducción capaz de reconocer casi 100 idiomas.

OpenAI también lanzó su software de transcripción de código abierto, que aún está muy cerca de la vanguardia del rendimiento de la transcripción y se puede ejecutar localmente en hardware de consumo, llamado Whisper. La compañía introdujo el software junto con un servicio de transcripción bajo demanda en septiembre de 2022.

Crédito de la imagen destacada: Elias Tigiser;