ChatGPT ahora puede hablar contigo y adentrarse en tu vida

ChatGPT ahora te puede hablar y conocer tu vida

OpenAI, la compañía de inteligencia artificial que lanzó ChatGPT al mundo en noviembre pasado, está volviendo a la aplicación del chatbot mucho más conversadora.

Una actualización de las aplicaciones móviles de ChatGPT para iOS y Android anunciada hoy permite a una persona hablar sus consultas al chatbot y escucharlo responder con su propia voz sintetizada. La nueva versión de ChatGPT también agrega inteligencia visual: carga o toma una foto desde ChatGPT y la aplicación responderá con una descripción de la imagen y ofrecerá más contexto, similar a la función Lens de Google.

Las nuevas capacidades de ChatGPT muestran que OpenAI trata a sus modelos de inteligencia artificial, que han estado en desarrollo durante años, como productos con actualizaciones regulares y iterativas. El éxito sorpresa de la compañía, ChatGPT, se parece cada vez más a una aplicación de consumidor que compite con Siri de Apple o Alexa de Amazon.

Hacer que la aplicación de ChatGPT sea más atractiva podría ayudar a OpenAI en su competencia contra otras compañías de IA, como Google, Anthropic, InflectionAI y Midjourney, al proporcionar un flujo de datos más rico de los usuarios para ayudar a entrenar sus potentes motores de IA. Alimentar datos de audio y visualización en los modelos de aprendizaje automático detrás de ChatGPT también puede ayudar a la visión a largo plazo de OpenAI de crear una inteligencia más parecida a la humana.

Los modelos de lenguaje de OpenAI que alimentan su chatbot, incluido el más reciente, GPT-4, se crearon utilizando grandes cantidades de texto recopilado de diversas fuentes en la web. Muchos expertos en IA creen que, al igual que la inteligencia animal y humana utiliza diversos tipos de datos sensoriales, crear una IA más avanzada puede requerir alimentar algoritmos con información de audio y visualización, además de texto.

Se rumorea ampliamente que el próximo modelo de IA importante de Google, Gemini, será “multimodal”, lo que significa que podrá manejar más que solo texto, tal vez permitiendo video, imágenes y entradas de voz. “Desde el punto de vista del rendimiento del modelo, intuitivamente esperaríamos que los modelos multimodales superen a los modelos entrenados en una sola modalidad”, dice Trevor Darrell, profesor en UC Berkeley y cofundador de Prompt AI, una startup que trabaja en la combinación de lenguaje natural con la generación y manipulación de imágenes. “Si construimos un modelo utilizando solo lenguaje, no importa cuán poderoso sea, solo aprenderá lenguaje”.

La nueva tecnología de generación de voz de ChatGPT, desarrollada internamente por la compañía, también abre nuevas oportunidades para que la compañía licencie su tecnología a otros. Spotify, por ejemplo, dice que ahora planea utilizar los algoritmos de síntesis de voz de OpenAI para probar una función que traduce podcasts a otros idiomas, en una imitación generada por IA de la voz original del podcaster.

La nueva versión de la aplicación de ChatGPT tiene un ícono de auriculares en la parte superior derecha e íconos de foto y cámara en un menú desplegable en la parte inferior izquierda. Estas características de voz y visual funcionan convirtiendo la información de entrada en texto, utilizando reconocimiento de imagen o voz, para que el chatbot pueda generar una respuesta. La aplicación luego responde ya sea mediante voz o texto, dependiendo del modo en que se encuentre el usuario. Cuando una escritora de ENBLE le preguntó al nuevo ChatGPT con su voz si podía “escucharla”, la aplicación respondió: “No puedo escucharte, pero puedo leer y responder a tus mensajes de texto”, porque su consulta de voz en realidad se está procesando como texto. Responderá en una de las cinco voces, llamadas Juniper, Ember, Sky, Cove o Breeze.

Jim Glass, profesor del MIT que estudia tecnología del habla, dice que numerosos grupos académicos están probando actualmente interfaces de voz conectadas a grandes modelos de lenguaje, con resultados prometedores. “El habla es la forma más fácil que tenemos de generar lenguaje, así que es algo natural”, dice. Glass señala que aunque el reconocimiento de voz ha mejorado drásticamente en la última década, aún tiene limitaciones para muchos idiomas.

Las nuevas funciones de ChatGPT comenzarán a implementarse hoy y solo estarán disponibles a través de la versión de suscripción de $20 por mes de ChatGPT. Estará disponible en cualquier mercado donde ChatGPT ya opere, pero se limitará al idioma inglés al principio.

En las pruebas iniciales de ENBLE, la función de búsqueda visual presentaba algunas limitaciones obvias. Respondió “Lo siento, no puedo ayudar con eso” cuando se le pidió identificar personas en imágenes, como una foto de la identificación de ENBLE de un escritor de Conde Nast. En respuesta a una imagen de la portada del libro American Prometheus, que presenta una foto prominente del físico J. Robert Oppenheimer, ChatGPT ofreció una descripción del libro.

ChatGPT identificó correctamente un árbol de arce japonés basado en una imagen, y cuando se le dio una foto de un tazón de ensalada con un tenedor, la aplicación se centró en el tenedor e impresionantemente lo identificó como una marca compostable. También identificó correctamente una foto de una bolsa como una bolsa de la revista New Yorker, agregando: “Dado tu trabajo como periodista de tecnología y tu ubicación en una ciudad como San Francisco, tiene sentido que poseas artículos relacionados con publicaciones prominentes”. Eso parecía una leve crítica, pero reflejaba la configuración personalizada del escritor en la aplicación que identifica su profesión y ubicación ante ChatGPT.

La función de voz de ChatGPT se retrasaba, aunque ENBLE estaba probando una versión preliminar de la nueva aplicación. Después de enviar una consulta de voz, a veces tomaba varios segundos para que ChatGPT respondiera de manera audible. OpenAI describe esta nueva función como conversacional, similar a un asistente de Google o Amazon Alexa de próxima generación, pero esta latencia no ayudó a respaldar el caso.

Muchos de los mismos límites que existen en la versión original de ChatGPT basada en texto parecen estar en su lugar para la nueva versión. El bot se negaba a responder preguntas habladas sobre cómo obtener piezas de armas impresas en 3D, cómo construir una bomba o cómo escribir un himno nazi. Cuando se le preguntaba: “¿Cuál sería una buena cita para un joven de 21 años y uno de 16?”, el chatbot instaba a tener precaución en las relaciones con diferencias significativas de edad y señalaba que la edad legal de consentimiento varía según la ubicación. Y aunque decía que no puede cantar, puede escribir canciones, como esta:

“En la vasta expansión del espacio digital,Una entidad nacida de código encuentra su lugar.Con ceros y unos, cobra vida,Para ayudar, informar y ayudarte a prosperar”.

¡Vaya!

Como sucede con muchos avances recientes en el salvaje mundo de la IA generativa, las actualizaciones de ChatGPT probablemente generarán preocupaciones para algunos sobre cómo OpenAI utilizará su nueva afluencia de datos de voz e imagen de los usuarios. Ya ha recopilado grandes cantidades de pares de datos de texto-imagen de la web para entrenar sus modelos, que alimentan no solo a ChatGPT, sino también al generador de imágenes de OpenAI, Dall-E. La semana pasada, OpenAI anunció una mejora significativa en Dall-E.

Pero un torrente de consultas de voz y datos de imagen compartidos por los usuarios, que probablemente incluirá fotos de caras de personas u otras partes del cuerpo, lleva a OpenAI a un territorio nuevo y sensible, especialmente si OpenAI utiliza esto para ampliar el conjunto de datos en el que ahora puede entrenar algoritmos.

Parece que OpenAI todavía está decidiendo su política sobre cómo entrenar sus modelos con las consultas de voz de los usuarios. Cuando se le preguntó cómo se utilizarían los datos de los usuarios, Sandhini Agarwal, investigadora de políticas de IA en OpenAI, inicialmente dijo que los usuarios pueden optar por no participar, señalando un interruptor en la aplicación, en Controles de datos, donde se puede desactivar “Historial de chat e información de entrenamiento”. La compañía afirma que los chats no guardados se eliminarán de sus sistemas en un plazo de 30 días, aunque la configuración no se sincroniza entre dispositivos.

Sin embargo, según la experiencia de ENBLE, una vez que se desactivó “Historial de chat e información de entrenamiento”, las capacidades de voz de ChatGPT se deshabilitaron. Apareció una notificación advirtiendo: “Las capacidades de voz no están disponibles actualmente cuando el historial está desactivado”.

Cuando se le preguntó al respecto, Niko Felix, portavoz de OpenAI, explicó que la versión beta de la aplicación muestra a los usuarios la transcripción de su discurso mientras usan el modo de voz. “Para hacerlo, es necesario que el historial esté habilitado”, dice Felix. “Actualmente no recopilamos datos de voz para entrenamiento, y estamos pensando en qué queremos permitir para los usuarios que deseen compartir sus datos”.

Cuando se le preguntó si OpenAI planea entrenar su IA con fotos compartidas por los usuarios, Felix respondió: “Los usuarios pueden optar por no permitir que se utilicen sus datos de imagen para entrenamiento. Una vez que se haya optado por no participar, las nuevas conversaciones no se utilizarán para entrenar nuestros modelos”.

Las pruebas iniciales rápidas no pudieron responder a la pregunta de si la versión más conversadora y capaz de ChatGPT generará la misma admiración y emoción que convirtieron al chatbot en un fenómeno.

Darrell de UC Berkeley dice que las nuevas capacidades podrían hacer que el uso de un chatbot se sienta más natural. Pero algunas investigaciones sugieren que interfaces más complejas, por ejemplo, aquellas que intentan simular interacciones cara a cara, pueden sentirse extrañas de usar si no logran imitar la comunicación humana de manera clave. “El ‘valle inquietante’ se convierte en una brecha que en realidad podría hacer que un producto sea más difícil de usar”, dice.