Google Gemini AI intenta superar a ChatGPT con habilidades fotográficas y de video

Google Gemini AI busca superar a ChatGPT con habilidades avanzadas en fotografía y video

Google ha comenzado a dotar a su chatbot Bard AI de una comprensión nativa de video, audio e imágenes con un nuevo modelo llamado Gemini. Los propietarios del teléfono Google Pixel 8 serán los primeros en aprovechar sus nuevas habilidades de inteligencia artificial.

Las primeras encarnaciones de la nueva tecnología llegaron el miércoles a docenas de países a través de la actualización Gemini de Google Bard, pero solo en inglés. Puede proporcionar habilidades de chat basadas en texto que, según Google, mejoran las habilidades de inteligencia artificial en tareas complejas como resumir documentos, razonar y escribir código de programación. El cambio más grande con las habilidades multimedia, por ejemplo, entender gestos manuales en un video o descifrar el resultado de un rompecabezas de puntos a puntos dibujado por un niño, llegará “pronto”, según Google.

Mira esto:

Gemini es una salida dramática para la inteligencia artificial. El chat basado en texto es importante, pero los humanos deben procesar información mucho más rica mientras habitamos nuestro mundo tridimensional y cambiante. Y respondemos con habilidades complejas de comunicación, como habla e imágenes, no solo palabras escritas. Gemini es un intento de acercarse a nuestra propia comprensión más completa del mundo.

Gemini viene en tres versiones adaptadas para diferentes niveles de potencia informática, según Google:

  • Gemini Nano funciona en teléfonos móviles, con dos variedades disponibles diseñadas para diferentes niveles de memoria disponible. Potenciará nuevas funciones en los teléfonos Pixel 8 de Google, como resumir conversaciones en su aplicación Recorder o sugerir respuestas de mensajes en WhatsApp escritos con el teclado Gboard de Google.
  • Gemini Pro, optimizado para respuestas rápidas, se ejecuta en los centros de datos de Google y potenciará una nueva versión de Bard, a partir del miércoles.
  • Gemini Ultra, limitado a un grupo de prueba por ahora, estará disponible en un nuevo chatbot avanzado de Bard que se lanzará a principios de 2024. Google se negó a revelar detalles de precios, pero espere pagar un precio premium por esta máxima capacidad.

La nueva versión destaca el ritmo frenético de avance en el nuevo campo de la IA generativa, donde los chatbots crean sus propias respuestas a las indicaciones que escribimos en lenguaje común en lugar de instrucciones de programación arcanas. El principal competidor de Google, OpenAI, se adelantó con el lanzamiento de ChatGPT hace un año, pero Google ya está en su tercera revisión importante de modelos de IA y espera implementar esa tecnología a través de productos que miles de millones de personas usamos, como búsqueda, Chrome, Google Docs y Gmail.

“Durante mucho tiempo hemos querido construir una nueva generación de modelos de IA inspirados en la forma en que las personas comprenden e interactúan con el mundo, una IA que se sienta más como un colaborador útil y menos como un software inteligente”, dijo Eli Collins, vicepresidente de productos de la división DeepMind de Google. “Gemini nos acerca un paso más a esa visión”.

OpenAI también suministra los avances detrás de la tecnología de IA Copilot de Microsoft, incluyendo el nuevo modelo GPT-4 Turbo que OpenAI lanzó en noviembre. Microsoft, al igual que Google, tiene productos importantes como Office y Windows a los que agrega funciones de IA.

La IA se vuelve más inteligente, pero no es perfecta

La multimedia probablemente será un gran cambio en comparación con el texto cuando llegue. Pero lo que no ha cambiado son los problemas fundamentales de los modelos de IA entrenados reconociendo patrones en grandes cantidades de datos del mundo real. Pueden convertir indicaciones cada vez más complejas en respuestas cada vez más sofisticadas, pero aún no se puede confiar en que no hayan proporcionado una respuesta plausible en lugar de la correcta. Como advierte el chatbot de Google cuando lo usas, “Bard puede mostrar información incorrecta, incluyendo sobre personas, así que verifica sus respuestas”.

Gemini es la próxima generación del gran modelo de lenguaje de Google, una secuela de PaLM y PaLM 2 que han sido la base de Bard hasta ahora. Pero al entrenar Gemini simultáneamente en texto, código de programación, imágenes, audio y video, puede lidiar de manera más eficiente con la entrada multimedia que con modelos de IA separados pero interconectados para cada modo de entrada.

Los ejemplos de las habilidades de Gemini, según un artículo de investigación de Google (PDF), son diversos.

Observando una serie de formas que consisten en un triángulo, un cuadrado y un pentágono, puede adivinar correctamente que la siguiente forma en la serie es un hexágono. Presentado con fotos de la luna y una mano sosteniendo una pelota de golf, y se le pide que encuentre el vínculo, señala correctamente que los astronautas del Apolo golpearon dos pelotas de golf en la luna en 1971. Convirtió cuatro gráficos de barras que mostraban las técnicas de eliminación de desechos país por país en una tabla etiquetada y detectó un punto de datos atípico, a saber, que Estados Unidos arroja mucha más basura de plástico en el vertedero que otras regiones.

La empresa también mostró a Gemini procesando un problema de física escrito a mano que involucraba un dibujo simple, descubriendo dónde se encontraba el error de un estudiante y explicando una corrección. Un video de demostración más complejo mostró a Gemini reconociendo un pato azul, títeres de mano, trucos de prestidigitación y otros videos. Sin embargo, ninguna de las demostraciones fue en vivo y no está claro qué tan seguido Gemini falla en tales desafíos.

Gemini Ultra espera más pruebas antes de aparecer el próximo año.

“Equipo rojo”, en el que un fabricante de productos recluta a personas para encontrar vulnerabilidades de seguridad y otros problemas, está en marcha para Gemini Ultra. Estas pruebas son más complicadas con datos de entrada multimedia. Por ejemplo, un mensaje de texto y una foto podrían ser inocuos por separado, pero juntos podrían transmitir un significado dramáticamente diferente.

“Nos acercamos a este trabajo de manera audaz y responsable”, dijo el CEO de Google, Sundar Pichai dijo en un artículo de blog. Eso significa combinar una investigación ambiciosa con grandes beneficios potenciales, pero también agregar salvaguardias y trabajar en colaboración con gobiernos y otros “para abordar los riesgos a medida que la IA se vuelve más capaz”.

Nota de los editores: ENBLE utiliza un motor de IA para ayudar a crear algunas historias. Para más información, consulta esta publicación.