Amazon mejora a Alexa para la era de ChatGPT

Amazon mejora a Alexa para ChatGPT

Cuando Amazon lanzó el asistente virtual Alexa hace nueve años, su capacidad para decodificar comandos de voz para configurar un temporizador o reproducir una canción parecía casi mágica. Hoy en día, el nivel de habilidades lingüísticas impresionantes es mucho más alto, gracias a ChatGPT de OpenAI. Amazon está dando un reinicio a su asistente de voz aprovechando la tecnología detrás de la nueva ola de chatbots que pueden participar en conversaciones sorprendentemente realistas.

Amazon anunció la actualización de Alexa en un evento celebrado en su segunda sede en Arlington, Virginia. El asistente responderá preguntas mucho más complejas y participará en conversaciones más fluidas y abiertas, eliminando la necesidad de que los usuarios digan “Alexa…” en cada turno.

En unas semanas, los usuarios que digan “Alexa, vamos a charlar” tendrán acceso al nuevo asistente de voz, más capaz. Amazon lo llama una “vista previa temprana” porque las nuevas capacidades siguen en desarrollo.

Las demos realizadas en el escenario el miércoles mostraron a Alexa exhibiendo una personalidad simulada con entonación y esfuerzos de humor. Los videos mostraron a personas pidiéndole a Alexa que escribiera poemas sobre un tema, que generara ideas para una cita nocturna y que creara una historia sobre gelatina. Los dispositivos equipados con cámaras, como el Echo Show, intentarán detectar cuándo una persona espera que Alexa continúe la conversación y cuándo la conversación ha terminado.

La nueva Alexa también modulará su propia voz para crear un diálogo más natural. “Si le pregunto a Alexa cómo le va a los Medias Rojas y acaban de perder, responderá con un tono empático”, dice Rohit Prasad, quien lidera el desarrollo de IA en Amazon y tiene su base en Cambridge, Massachusetts.

Prasad dice que mejorar las habilidades lingüísticas de Alexa requirió una ingeniería extensa, porque los modelos de lenguaje grandes que alimentan servicios como ChatGPT pueden inventar hechos, decir tonterías y ser totalmente inapropiados. “Dadas ciertas limitaciones de los modelos de lenguaje, esto es un gran salto”, dice Prasad.

Justine Cassell, profesora en la Universidad Carnegie Mellon que estudia la forma en que los humanos interactúan con los agentes de IA, dice que será fascinante ver cómo las personas responden a un chatbot activado por voz capaz de dar respuestas más ricas. “Los objetivos son geniales y estoy emocionada de ver qué hacen”, dice.

Sin embargo, Cassell dice que algunas de las cosas que Amazon promete, como responder al lenguaje corporal, siguen siendo extremadamente desafiantes. “No hay una gramática del lenguaje corporal, como la hay para el lenguaje hablado y escrito”, dice. Si Alexa interpreta incorrectamente la postura o los movimientos de alguien y responde de manera incorrecta, las cosas podrían ser incómodas. Cassell dice que incluso si Alexa adquiere más fluidez similar a ChatGPT, sus esfuerzos por imitar la personalidad y los sentimientos humanos a través de características como la entonación no igualarán las capacidades humanas durante algún tiempo. Espera que la nueva Alexa a veces parezca forzada en sus respuestas.

Amazon dice que los usuarios podrán solicitar acceso a una prueba adicional de su nueva tecnología, donde las nuevas capacidades de Alexa se pueden utilizar para controlar otros dispositivos, incluidos algunos que no son fabricados por Amazon. Con el tiempo, la compañía planea agregar nuevas funciones a Alexa, potencialmente incluyendo la capacidad de discutir y recomendar productos de su vasto inventario.

Si Alexa puede responder a consultas más complejas evitando errores embarazosos, podría anunciar una actualización más amplia, y muy necesaria, en las capacidades de los asistentes de voz.

Cuando Amazon lanzó Alexa en 2014, ayudó a crear una nueva categoría en la informática personal basada en la interacción por voz, lo que llevó a predicciones de que las interfaces de voz pronto dominarían. Alexa y Siri de Apple se beneficiaron de los avances en el aprendizaje automático que finalmente hicieron posible que los dispositivos reconocieran y respondieran de manera confiable a la voz de un usuario. Pero la complejidad del lenguaje ha limitado estos dispositivos solo a comandos simples y los ha dejado incapaces de participar en algo que se parezca a una conversación real. Aun así, Amazon dice que se han vendido más de medio billón de dispositivos con Alexa en todo el mundo.

El advenimiento de grandes modelos de lenguaje entrenados en grandes cantidades de texto ha creado finalmente algoritmos que pueden manejar diálogos más complejos. ChatGPT y otros chatbots han sorprendido tanto a expertos como al público con su flexibilidad y lo habladores que son, aunque tienden a soltar afirmaciones que pueden ser falsas, sesgadas o incluso ofensivas.

Prasad dice que Amazon desarrolló un nuevo modelo de lenguaje grande de vanguardia para revitalizar a Alexa. Dice que la compañía afinó este modelo para frases apropiadas para la conversación vocal, y utiliza algoritmos adicionales para ayudar con el reconocimiento del lenguaje corporal y la entonación.

Uno de los grandes desafíos para Amazon puede resultar ser cómo manejar los errores sorprendentes que surgen al usar grandes modelos de lenguaje. Cuando Microsoft agregó un chatbot de IA avanzado a su motor de búsqueda Bing, los usuarios descubrieron rápidamente algunos comportamientos extraños. “¿Es perfecto al 100%? No”, dice Prasad. “Por eso es una vista previa temprana, porque habrá errores ocasionales”.

Prasad dice que Amazon ya ha desarrollado salvaguardias para evitar que Alexa se desvíe del rumbo. Agrega que algunos recordarán a las personas que están hablando con una máquina e intentarán evitar que el asistente se presente demasiado como una persona. Algunos usuarios de chatbot forman vínculos emocionales e incluso románticos con las personalidades simuladas con las que interactúan. Prasad agrega que Amazon está investigando los riesgos a largo plazo que pueden surgir de avances adicionales en IA.