Demis Hassabis de Google DeepMind dice que Gemini es una nueva generación de inteligencia artificial

Demis Hassabis de Google DeepMind dice que Gemini es una nueva generación de inteligencia artificial avanzada

Demis Hassabis nunca ha sido tímido a la hora de proclamar grandes avances en la inteligencia artificial. Más notablemente, se hizo famoso en 2016 después de que un bot llamado AlphaGo se enseñara a sí mismo a jugar a Go, un juego de mesa complejo y sutil, con habilidad e ingenio sobrehumanos.

Hoy, Hassabis dice que su equipo en Google ha dado un paso adelante aún mayor, tanto para él como para la compañía, y con suerte para el campo más amplio de la inteligencia artificial. Gemini, el modelo de IA anunciado por Google hoy, según él, abre un camino inexplorado en la IA que podría llevar a importantes avances.

“Como neurocientífico además de científico informático, he querido durante años intentar crear una especie de nueva generación de modelos de IA que estén inspirados en la forma en que interactuamos y comprendemos el mundo, a través de todos nuestros sentidos”, dijo Hassabis a ENBLE antes del anuncio de hoy. Gemini es “un gran avance hacia ese tipo de modelo”, asegura. Google describe a Gemini como “multimodal” porque puede procesar información en forma de texto, audio, imágenes y video.

Una versión inicial de Gemini estará disponible a través del chatbot Bard de Google a partir de hoy. La compañía afirma que la versión más potente del modelo, Gemini Ultra, se lanzará el próximo año y superará a GPT-4, el modelo detrás de ChatGPT, en varias pruebas comunes. Los videos lanzados por Google muestran a Gemini resolviendo tareas que involucran razonamiento complejo, así como ejemplos de cómo el modelo combina información de texto, imágenes, audio y video.

“Hasta ahora, la mayoría de los modelos han aproximado la multimodalidad mediante el entrenamiento de módulos separados y luego uniendo todo”, dice Hassabis, en lo que parecía ser una referencia velada a la tecnología de OpenAI. “Esto está bien para algunas tareas, pero no se puede lograr este tipo de razonamiento profundo y complejo en un espacio multimodal”.

OpenAI lanzó una actualización de ChatGPT en septiembre que le dio al chatbot la capacidad de recibir imágenes y audio, además de texto. OpenAI no ha revelado detalles técnicos sobre cómo realiza GPT-4 esto o la base técnica de sus capacidades multimodales.

Google ha desarrollado y lanzado Gemini con una velocidad sorprendente en comparación con proyectos de IA anteriores de la compañía, impulsado por la preocupación reciente sobre la amenaza que podrían representar los avances de OpenAI y otros para el futuro de Google.

A finales de 2022, Google era considerado el líder en IA entre las grandes compañías tecnológicas, con investigadores en IA que realizaban importantes contribuciones al campo. El CEO Sundar Pichai había declarado que la estrategia de la compañía era ser “primero en IA” y Google había agregado con éxito IA a muchos de sus productos, desde la búsqueda hasta los teléfonos inteligentes.

Cómo Detener Otro Colapso de OpenAI

Paresh Dave

OpenAI Acordó Comprar $51 Millones en Chips de IA a una Startup Respaldada por el CEO Sam Altman

Paresh Dave

Cómo la Estructura Bizarra de OpenAI Dio a 4 Personas el Poder de Despedir a Sam Altman

Paresh Dave

Poco después del lanzamiento de ChatGPT de OpenAI, una startup peculiar con menos de 800 empleados, Google ya no fue considerado el primero en IA. La capacidad de ChatGPT para responder todo tipo de preguntas con inteligencia que podría parecer sobrehumana planteó la posibilidad de que el buscador estrella de Google fuera desplazado, especialmente cuando Microsoft, inversor en OpenAI, incorporó la tecnología subyacente a su propio motor de búsqueda, Bing.

Sorprendido por esta acción, Google se apresuró a lanzar Bard, un competidor de ChatGPT, mejoró su motor de búsqueda y lanzó rápidamente un nuevo modelo, PaLM 2, para competir con el utilizado en ChatGPT. Hassabis fue ascendido de liderar el laboratorio de IA de Londres, creado cuando Google adquirió su startup, DeepMind, a encabezar una nueva división de IA que combina ese equipo con el principal grupo de investigación en IA de Google, Google Brain. En mayo, en la conferencia de desarrolladores de Google, I/O, Pichai anunció que estaban entrenando un sucesor nuevo y más poderoso de PaLM llamado Gemini. No lo dijo en ese momento, pero el proyecto fue nombrado para marcar la unión de los dos principales laboratorios de IA de Google y en homenaje al Proyecto Gemini de la NASA, que allanó el camino para el alunizaje del Apolo.

Después de siete meses, Gemini finalmente está aquí. Hassabis dice que la capacidad del nuevo modelo para manejar diferentes formas de datos, incluyendo y más allá del texto, fue una parte clave de la visión del proyecto desde el principio. Poder utilizar datos en diferentes formatos es considerado por muchos investigadores de IA como una capacidad clave de la inteligencia natural que ha estado ausente en gran medida en las máquinas.

Los modelos de lenguaje grandes que hay detrás de sistemas como ChatGPT obtienen su flexibilidad y poder al estar construidos sobre algoritmos que aprenden a partir de enormes volúmenes de datos de texto extraídos de la web y otros lugares. Pueden responder preguntas y crear poemas y pastiches literarios sorprendentes al reproducir y remezclar patrones aprendidos de esos datos de entrenamiento (a veces incluso inventando hechos “alucinantes”).

Pero aunque ChatGPT y chatbots similares pueden utilizar el mismo truco para discutir o responder preguntas sobre el mundo físico, esta aparente comprensión puede desmoronarse rápidamente. Muchos expertos en IA creen que para que la inteligencia artificial avance significativamente, se requerirán sistemas que tengan alguna forma de “fundamentación” en la realidad física, tal vez combinando un modelo de lenguaje con software que también pueda ver, oír y, eventualmente, tocar.

Hassabis dice que Google DeepMind ya está investigando cómo Gemini podría combinarse con la robótica para interactuar físicamente con el mundo. “Para ser verdaderamente multimodal, querrías incluir el tacto y la retroalimentación táctil”, dice. “Hay muchas promesas al aplicar estos modelos de tipo fundamentales a la robótica, y estamos explorando eso ampliamente”.

Google ya ha dado algunos pasos en esta dirección. En mayo de 2022, la compañía anunció un modelo de IA llamado Gato capaz de aprender a realizar una amplia gama de tareas, como jugar juegos de Atari, describir imágenes y utilizar un brazo robótico para apilar bloques. En julio, Google presentó un proyecto llamado RT-2 que involucraba el uso de modelos de lenguaje para ayudar a los robots a comprender y realizar acciones.

Hassabis dice que los modelos que sean mejores para razonar sobre la información visual también serán más útiles como agentes de software, o bots que intentan hacer cosas utilizando una computadora e internet de manera similar a una persona. OpenAI y otros ya están tratando de adaptar ChatGPT y sistemas similares en una nueva generación de asistentes virtuales mucho más capaces y útiles, pero actualmente son poco confiables.

Para que los agentes de IA funcionen de manera confiable, los algoritmos que los impulsan deben ser mucho más inteligentes. OpenAI está trabajando en un proyecto llamado Q* que tiene como objetivo mejorar las habilidades de razonamiento de los modelos de IA, quizás utilizando aprendizaje por refuerzo, la técnica que está en el corazón de AlphaGo. Hassabis dice que su compañía también está investigando en líneas similares.

“Tenemos algunos de los mejores expertos en aprendizaje por refuerzo del mundo, quienes inventaron algunas de estas cosas”, dice. Se espera que los avances de AlphaGo ayuden a mejorar la planificación y el razonamiento en modelos futuros como el que se lanzó hoy. “Tenemos algunas innovaciones interesantes en las que estamos trabajando para llevar a futuras versiones de Gemini. Verás muchos avances rápidos el próximo año”.

Con Google, OpenAI y otras empresas tecnológicas compitiendo por acelerar el ritmo de su investigación y despliegue de IA, los debates sobre los riesgos que los modelos actuales y futuros podrían traer se han vuelto más fuertes, incluso entre los jefes de estado. Hassabis estuvo involucrado en una iniciativa lanzada por el gobierno del Reino Unido a principios de este año que llevó a una declaración advirtiendo sobre los peligros potenciales de la IA y que llamaba a una mayor investigación y discusión. Las tensiones en torno al ritmo al que OpenAI estaba comercializando su IA parecen haber desempeñado un papel en un reciente drama en la junta directiva que llevó a que el CEO Sam Altman fuera destituido brevemente.

Hassabis dice que mucho antes de que Google adquiriera DeepMind en 2014, él y sus cofundadores Shane Legg y Mustafa Suleyman ya estaban discutiendo formas de investigar y mitigar los posibles riesgos. “Tenemos algunos de los mejores equipos del mundo buscando sesgos, toxicidad y otros tipos de seguridad también”, dice.

Incluso mientras Google lanza la versión inicial de Gemini hoy, todavía se está trabajando en las pruebas de seguridad para la versión más potente, Ultra, que se lanzará el próximo año. “Estamos finalizando esas verificaciones y controles, pruebas de seguridad y responsabilidad”, dice Hassabis. “Luego lo lanzaremos a principios del próximo año”.