La IA generativa superará con creces lo que ChatGPT puede hacer. Aquí está todo sobre cómo avanzan las tecnologías

La IA generativa superará a ChatGPT. Avances en tecnologías.

Más que cualquier otro de los muchos logros destacados de la inteligencia artificial, como ganar en ajedrez, predecir la plegadura de proteínas, etiquetar gatos y perros, la forma de IA conocida como IA generativa ha cautivado la imaginación global.

ChatGPT se convirtió en el programa de software de crecimiento más rápido de la historia en enero, alcanzando cien millones de usuarios en menos de dos meses desde su debut público. Dio lugar a numerosos competidores, tanto programas propietarios como Bard de Google, como alternativas de código abierto como Koala de la Universidad de California en Berkeley. La emoción generada ha provocado una carrera armamentista entre los gigantes tecnológicos Microsoft y Google y sus pares, y un aumento en el negocio del fabricante de chips de IA Nvidia.

La emoción generada por los modelos de lenguaje de gran tamaño ha llevado a un florecimiento de numerosos programas propietarios y de código abierto de creciente escala solo para texto. El diagrama proviene del artículo de 2023 “Inteligencia emocional de los modelos de lenguaje de gran tamaño” de Xuena Wang y sus colegas de la Universidad de Tsinghua.

Toda esta actividad ferviente tiene sus raíces en el simple hecho de que, a diferencia de los programas de IA anteriores, que en su mayoría producían una puntuación numérica, un “1” para una imagen de gato, un “0” para una imagen de perro, ChatGPT y programas de imagen como Stable Diffusion de Stability.ai y DALL-E de OpenAI, reproducen algo del mundo.

Característica especial

El surgimiento de la IA generativa

Una nueva ola de herramientas de IA ha cautivado al mundo y nos ha dado una visión de una nueva forma de trabajar y encontrar información que puede agilizar nuestro trabajo y nuestras vidas. Te mostramos cómo las herramientas como ChatGPT y otros softwares de IA generativa están impactando en el mundo, cómo aprovechar su poder, así como los posibles riesgos.

Al generar un párrafo, una imagen o incluso el esqueleto de un programa informático, estos programas están reflejando las creaciones de la sociedad.

El aspecto de reflejo aumentará dramáticamente en un lapso de tiempo muy corto.

Los programas generativos de hoy parecerán primitivos en comparación con los poderes de los programas que prevalecerán a finales de este año, ya que generarán muchos más tipos de cosas.

Avanzando hacia múltiples modalidades

Lo que los científicos informáticos llaman modalidades mixtas o “multi-modalidad” ocupará un lugar central, ya que los programas fusionarán texto, imágenes, “nubes de puntos” del espacio físico, sonidos, video y funciones informáticas completas como aplicaciones inteligentes.

La modalidad mixta permitirá programas mucho más capaces y contribuirá a un objetivo de aprendizaje continuo que se ha mantenido durante mucho tiempo. Incluso podría avanzar en el objetivo de la “IA encarnada” al impulsar la robótica.

“ChatGPT fue creado para el entretenimiento y hace muchas cosas realmente bien, pero es como una demostración”, dijo Naveen Rao, fundador de la startup de IA MosaicML, en una entrevista con ENBLE. “Ahora tenemos que empezar a pensar en cómo mejorar esto si lo estoy utilizando con un propósito”.

Rao, cuya empresa fue adquirida por Databricks por su experiencia en la ejecución de programas de IA, ahora se desempeña como vicepresidente de IA generativa en Databricks.

También: El generador de imágenes de IA de Meta dice que el lenguaje puede ser todo lo que necesitas

Parte de esa mejora consistirá en hacer que la IA generativa sea más que un “Copiloto” personal, como el Copiloto de GitHub de Microsoft, que ayuda a una sola persona a escribir en un cuadro de chat. En cambio, los programas se convertirán en colaborativos, para equipos, dijo Emad Mostaque, fundador y CEO de Stability.ai, en una entrevista con ENBLE.

“Gran parte de la IA se utiliza solo de manera individual o como un agente autónomo”, dijo Mostaque. “Está en la fase del iPhone 2G ahora, donde es solo un modo y se copia y pega, mientras que creo que lo más emocionante es cómo podemos colaborar mejor y contar mejores historias con él, y eso no es un esfuerzo solitario”.

Una de las cosas que “falta fundamentalmente”, dijo Rao de Databricks, “es la multi-modalidad del mundo”, dado que “los modelos de lenguaje grandes son muy unidimensionales en el sentido de que solo ven el mundo a través del texto”.

Las modalidades se refieren a la naturaleza de la entrada y la salida, como texto, imagen o video. Se han explorado diversas modalidades con una creciente diversidad, porque los mismos conceptos básicos que impulsan ChatGPT se pueden aplicar a cualquier tipo de entrada.

“La multi-modalidad es el camino, definitivamente”, dijo Mostaque. “Necesitarás modelos de cada tipo, y tal vez si los unes, será increíble”.

“El enfoque solo en el lenguaje ha tenido mucho impacto y emoción, y por eso los medios se enfocan en eso, pero las personas también están trabajando seriamente en otras cosas”, dijo Jim Keller, un reconocido diseñador de chips de computadora que es CEO de la startup de chips de IA Tenstorrent, en una entrevista con ENBLE. Keller está apostando a que manejar modalidades mixtas será una de las grandes demandas de la IA en el futuro.

Una máquina para cualquier tipo de dato

En un modelo de lenguaje grande, que es el corazón de la tecnología de ChatGPT, el texto se convierte en un token, una representación matemática cuantificada. Luego, la máquina tiene que encontrar lo que falta en las partes enmascaradas de una frase completa o en la última parte de una frase. Es el acto de recreación lo que genera los párrafos que ChatGPT produce.

De la misma manera, en el caso de las imágenes, el proceso de difusión ampliamente utilizado, popularizado por la versión Stable Diffusion de Stability.ai, corrompe las imágenes con ruido, y el acto de recrear la imagen original entrena a una red neuronal para generar imágenes de alta fidelidad.

También: ¿Puede la IA generativa resolver el mayor problema sin resolver de la ciencia de la computación?

Los mismos procesos de recuperación de lo que falta o está corrupto se están extendiendo rápidamente a numerosas modalidades o tipos de datos. Por ejemplo, en un reciente número de la revista Nature, el biólogo David Baker y su equipo de la Universidad de Washington corrompieron las secuencias de aminoácidos de las proteínas mediante un proceso que llaman RFdiffusion. Ese proceso entrenará a una red neuronal para producir una proteína, en simulación, una proteína sintética novedosa, que tenga propiedades deseadas.

Una síntesis así puede reducir drásticamente la cantidad de proteínas que se deben inventar y probar para obtener anticuerpos novedosos contra enfermedades. (El artículo de Nature está detrás de un muro de pago, pero hay una versión gratuita publicada en el servidor de archivos bioRxiv. Se puede encontrar más información en el sitio web del Laboratorio Baker.)

El proceso RFdiffusion desarrollado por el Laboratorio Baker del Instituto de Diseño de Proteínas de la Universidad de Washington corrompe las secuencias de aminoácidos para luego sintetizar una estructura de proteína novedosa de manera similar a como la difusión de imágenes crea imágenes.

“Tenemos laboratorios para cada modalidad”, dijo Mostaque de Stability.ai, quien afirma que su empresa y OpenAI son “las únicas dos compañías independientes multi-modales”, aparte de los gigantes tecnológicos como Google. Esa multi-modalidad incluye un laboratorio en Stability.ai solo para audio, dijo, un laboratorio solo para generación de código, incluso un laboratorio para biología que trabaja en cosas como la recreación de imágenes de fMRI utilizando la tecnología Stable Diffusion.

La magia, sin embargo, ocurre cuando se combinan más modalidades. El “avance”, según Mostaque, se produjo el año pasado en un trabajo de Katherine Crowson y varios otros investigadores que entrenaron una red neuronal generadora de imágenes para refinar continuamente su salida hasta que la salida satisfizo una indicación basada en texto. Descubrieron que trabajar nuevamente las imágenes para que coincidan con el contenido “semántico” del texto mejoraba la calidad de las imágenes. Crowson ahora está en Stability.ai, señaló Mostaque.

Ese trabajo de imagen y texto ha estado avanzando rápidamente en numerosas instituciones. Los investigadores de IA en Meta han propuesto una combinación de máquinas de texto e imágenes llamada CM3Leon que se destaca no solo en generar texto o imágenes, sino en realizar tareas que involucran ambos al mismo tiempo, como identificar objetos en una imagen dada o generar leyendas a partir de una imagen dada.

La red neuronal CM3Leon de Meta combina imágenes y texto para realizar múltiples tareas, como describir detalladamente una imagen dada o alterar una imagen dada con precisión. Se detalla en el artículo de 2023, “Scaling Autoregressive Multi-Modal Models: Pre-training and Instruction Tuning,” de Lilu Yu y colaboradores de Meta AI.

Una imagen más completa del mundo

La combinación de múltiples modalidades comienza a construir una imagen más completa del mundo para la red neuronal. Rao de Databricks cita el concepto de neurociencia de “estereognosis”, que significa conocer el mundo a través del sentido del tacto. Si alguien te pregunta cuánto cambio tienes en el bolsillo, puedes sentir las monedas y decirlo por su tamaño y peso sin verlas. “Tengo una representación del mundo y objetos que están representados en múltiples modalidades”, dijo. “Si puedo aprender conceptos que abarcan modalidades, entonces hemos logrado algo interesante”.

La idea de que diferentes sentidos enriquecen la comprensión se refleja en los experimentos multimodales que se están llevando a cabo. Se está investigando cómo crear redes neuronales “backbone” que puedan combinar una amplia variedad de modalidades, y muestran beneficios de rendimiento intrigantes.

Recientemente, los académicos de la Universidad Carnegie Mellon ofrecieron lo que ellos llaman un “Transformador Multimodal de Alta Modalidad”, que combina no solo texto, imagen, video y voz, sino también información de tablas de bases de datos y datos de series temporales. El autor principal, Paul Pu Liang, y sus colegas informan que observaron “un comportamiento de escalado crucial” de la red neuronal de 10 modos. “El rendimiento continúa mejorando con cada modalidad añadida, y se transfiere a modalidades y tareas completamente nuevas”.

El artículo de 2023 de Carnegie Mellon, “Transformador Multimodal de Alta Modalidad”, de Paul Liang y sus colegas, combina no solo texto, imagen, video y voz, sino también información de tablas de bases de datos y datos de series temporales.

Yiyuan Zhang y sus colegas del Laboratorio Multimedia de la Universidad China de Hong Kong aumentaron el número de modalidades a una docena en su Meta-Transformador. Sus modelos de nubes de puntos representan la visión 3D, mientras que sus datos de detección hiperespectral representan la energía electromagnética reflejada desde el suelo hacia imágenes aéreas de paisajes.

El Meta-Transformador es el futuro de la IA generativa, con toneladas de datos de diferentes tipos fusionados para tener un sentido más completo de lo que se produce como resultado. Se explora en el artículo de 2023 “Meta-Transformador: un marco unificado para el aprendizaje multimodal”, de Yiyuan Zhang y sus colegas en el Laboratorio Multimedia de la Universidad China de Hong Kong y OpenGVLab en el Laboratorio de IA de Shanghai.

Creando un libro de cuentos a partir de múltiples modalidades

La recompensa inmediata de la multimodalidad simplemente será enriquecer la salida de cosas como ChatGPT de formas que van mucho más allá del modo “demo”. Un libro de cuentos infantil, un libro con pasajes de texto combinados con imágenes que ilustran el texto, es un ejemplo inmediato. Al combinar los atributos del lenguaje y la imagen, se puede controlar de manera más sutil el tipo de imágenes creadas por el proceso de difusión.

Según explican científicos de Google y el autor principal Wan-Duo Kurt Ma de la Universidad Victoria de Wellington en Nueva Zelanda, un proceso conocido como difusión dirigida puede mover al gato, o a un castillo, o a un pájaro, a través de diversas escenas, creando una serie de imágenes que permiten un mayor control y transiciones como en una narrativa.

Una técnica llamada difusión dirigida puede mover una entidad, como un gato, un castillo o un pájaro, a través de diversas escenas, creando una serie de imágenes que permiten un mayor control y transiciones como en una narrativa. Se detalla en el artículo de 2023 “Difusión dirigida: control directo de la ubicación de objetos mediante guía de atención”, de Wan-Duo Kurt Ma y sus colegas en la Universidad Victoria de Wellington y Google Research.

De manera similar, Hyeonho Jeong de la Universidad Sungkyunkwan de Corea, junto con académicos del Instituto Avanzado de Ciencia y Tecnología de Corea, propusieron otra variante de difusión, llamada difusión latente, que detallaron en un artículo reciente. Aseguran que proporciona acceso a muchos más detalles en una imagen a un bajo nivel de granularidad.

El resultado es la capacidad de generar libros de cuentos donde un personaje se mueve a través de diferentes escenarios imagen por imagen, como añadir perillas a la indicación de texto para seleccionar diferentes escenarios. La consistencia del objeto en las imágenes se denomina “Inyección Coherente Iterativa de Identidad”.

Una técnica llamada difusión latente amplía la creación de imágenes con lo que sus inventores llaman “Inyección de Identidad” para diseñar el movimiento de un personaje a través de imágenes de un libro de cuentos.

Al igual que con la síntesis de proteínas en el Laboratorio Baker, las aplicaciones de la modalidad mixta pueden volverse bastante sorprendentes. Otro artículo reciente de Chenyu Tang y sus colegas en el Departamento de Ingeniería de la Universidad de Cambridge propone la construcción de un “gemelo digital”, una simulación por computadora del cuerpo humano, con todos los órganos y tejidos representados, y los flujos de sangre y otros representados, combinando datos de múltiples instrumentos médicos en el mismo proceso de difusión estable.

“Tanto los sensores de movimiento (como acelerómetros, sensores EMG, etc.) como los sensores bioquímicos (para detectar biomarcadores correspondientes a enfermedades, como sensores de saliva, sensores de sudor, etc.) pueden producir salidas específicas para el paciente”, escribieron los autores. “Aunque estas salidas tienen patrones distintos, todas corresponden a la misma enfermedad.”

El “gemelo digital” del cuerpo humano podría ser habilitado combinando datos de múltiples instrumentos médicos en el mismo proceso de difusión estable. El diagrama representa la “hoja de ruta de cinco niveles para el gemelo digital del cuerpo”, como se ve en el artículo de 2023 “Human Body Digital Twin: A Master Plan” de Chenyu Tang y sus colegas de la Universidad de Cambridge.

Maestros modales especiales 

La forma en que se combinan las modalidades será tan importante como cuáles, dijo Mostaque de Stability.ai. “La parte final será la composición, ya que estos bloques de construcción que construimos se colocan en un software adecuado que es principalmente de IA, que reimagina toda esta creación, consumo y flujos de procesos con estas nuevas y geniales herramientas”, dijo.

Aunque se pueden utilizar modelos masivos como el PaLM LLM o el GPT-4 de Google, sucederá mucha mixtura de modalidades como una orquestación de componentes, dijo. “¿Cómo se combinan los modelos de manera realmente interesante y cómo se combinan muchos modelos diferentes para lograr los resultados que realmente deseas mejorar?”, preguntó.

Aunque PaLM y GPT-4 pueden ser poderosos, dijo, hay amplias pruebas de que “muchos modelos especializados pueden superar” a los programas más grandes. Como resultado, “creo que tendremos muchos modelos especializados en las modalidades”, dijo, un proceso de “desconstrucción” de la tecnología en sus roles apropiados, “y luego algunos modelos multimodales que pueden hacer todo y se llaman en el momento adecuado para la cosa adecuada”.

La robótica es la próxima frontera de la IA

La mezcla de modalidades es destacable en el ámbito de la IA encarnada, en forma de robótica. 

Sergey Levine, profesor asociado en el departamento de ingeniería eléctrica de la Universidad de California en Berkeley, dijo a ENBLE que, en lo que respecta a la IA generativa, los sistemas en robótica desempeñan un papel importante.

“La parte multimodal es bastante emocionante”, añadió Levine, miembro del Berkeley Artificial Intelligence Research de la Universidad que también trabaja con equipos de Google.

Al procesar imágenes y texto, una red neuronal multimodal ya es capaz de producir “comandos de alto nivel para robots”, dijo. El código que un robótico normalmente escribiría para instruir a un robot puede ser “totalmente automatizado, en esencia”, dijo Levine.

“Lo que queremos es la capacidad de comandar rápidamente y fácilmente a los robots para que hagan cosas”, dijo Levine. “Bridging that gap is something that language models are gonna be great at.”

También:DeepMind’s RT-2 makes robot control a matter of AI chat

Levine ayudó a supervisar una demostración temprana en Google que se publicó recientemente, llamada PaLM-E, que los investigadores de Google llaman “An Embodied Multimodal Language Model”. El robot es capaz de seguir una serie de instrucciones como “tráeme las chips de arroz del cajón”, que el modelo de lenguaje descompone en instrucciones atómicas, como “ve al cajón”, “abre el cajón”, “coge la bolsa de chips de arroz verde”, etc.

Un trabajo posterior, realizado por la unidad DeepMind de Google, llamado RT-2, se basa en PaLM-E al agregar la capacidad de generar coordenadas espaciales para el robot. Levine llama a ese trabajo “un avance significativo”.

Al igual que con el concepto de estereognosis, Levine argumenta que el aumento de las modalidades puede brindar un modelo enriquecido del mundo y, por lo tanto, brindar algunas habilidades básicas de razonamiento.

También:DeepMind’s RT-2 makes robot control a matter of AI chat

Si los modelos de lenguaje grandes y los modelos de difusión pueden integrar el proceso de “tomar imágenes anteriores y predecir descripciones [de texto], y tomar descripciones anteriores y predecir imágenes”, dijo Levine, “ahora podrían comenzar, en cierta medida, a profundizar en cómo entienden el mundo”.

Un ejemplo primitivo de conocimiento del mundo es un camarero robot en el que Levine ha trabajado, que verifica la identificación de las personas. “De hecho, puedes decirle al modelo de lenguaje que escriba un código para un camarero robot, y genera alguna lógica para hacer eso, y si alguien pide un vaso de agua, eso no es una bebida alcohólica”, y por lo tanto no requiere una verificación de identificación.

Vamos a necesitar mucha más memoria

La combinación de robótica y multimodalidad tiene implicaciones más profundas porque expande el apetito por los datos de manera drástica. La inteligencia artificial generativa de hoy en día, como ChatGPT, no tiene una memoria explícita. Solo funciona con la última cantidad de cosas que escribiste en el comando, y después de un tiempo, olvida cosas de hace mucho tiempo.

Utilizando una multimodalidad mixta que incluya muchas más muestras de datos, se obligará a la inteligencia artificial generativa a desarrollar algo similar a una memoria real de datos. “Cuando empezamos a utilizar modelos multimodales, eso empieza a ser mucho más exigente en cuanto al contexto”, dijo Levine, “porque el prototipo actual de ese modelo solo toma una imagen, pero tal vez quieras darle mil imágenes.

“Tal vez quieras mostrarle un recorrido por tu casa para que sepa dónde está todo en tu casa, para que cuando le pidas que te traiga las llaves del coche, pueda examinar su memoria y averiguar dónde están las llaves del coche; eso requiere un contexto mucho más largo”.

También: Microsoft, TikTok le dan a la inteligencia artificial generativa una especie de memoria

Los datos de video pueden ser igualmente, si no más, importantes para permitir que un robot construya un retrato del mundo. Esos videos, junto con texto y nubes de puntos y otras modalidades, se convierten en un simulador mediante el cual un robot puede construir un modelo del mundo, dijo Levine. “Si estos modelos proporcionan una forma de aprender simuladores de muy alta fidelidad, eso podría tener un impacto muy significativo en el futuro”.

Expandirse a miles de imágenes y posiblemente horas de video, tal vez gigabytes de nubes de puntos, datos en 3D, para entrenar programas multimodales, significa que ChatGPT y el resto tendrán que expandir drásticamente su acceso a los datos a través de un llamado banco de memoria.

Se están llevando a cabo muchos esfuerzos para “aumentar” los modelos de lenguaje con lo que se llama recuperación de una base de datos. Eso se puede ver en el programa CM3Leon de Meta, que permite al software sumergirse en una base de datos y encontrar imágenes relevantes.

Esfuerzos como la tecnología Hyena en la Universidad de Stanford y el instituto MILA de Canadá intentan expandir drásticamente lo que se puede alimentar en el comando de un programa para que se pueda ingresar cualquier cantidad de datos, de cualquier modalidad.

También: Esta nueva tecnología podría superar a GPT-4 y todo lo similar

Eso significa que, junto con la multimodalidad, los sucesores de ChatGPT podrán manejar un contexto mucho mayor: libros completos, series de artículos, películas y registros de estructuras físicas en tres dimensiones. También significa que el contexto para cualquier tarea puede adaptarse mucho más a los conocimientos adquiridos de un individuo o de un grupo. Mostaque dijo que esos modelos no solo aportarán el conocimiento generalizado de GPT-4, sino también conocimientos específicos, así como el conocimiento de tu equipo, tu empresa y más allá.

“Creo que eso es lo más importante, cuando se adopte en las empresas el próximo año”, dijo Mostaque, refiriéndose a la inminente adopción popular de la inteligencia artificial generativa en entornos corporativos.

El “sistema de memoria autónoma” de ByteDance, propietario de TikTok, puede acceder a un banco de datos de cientos de diálogos y miles de personajes para brindar a cualquier modelo de lenguaje capacidades superiores a las de ChatGPT al responder preguntas sobre eventos pasados. Se muestra en el artículo de 2023, “Unleashing Infinite-Length Input Capacity for Large-scale Language Models with Self-Controlled Memory System”, de Xinnian Liang y sus colegas en el Laboratorio de IA de ByteDance.

Aprendizaje continuo alcanzable

A medida que la multimodalidad se expande a video, audio, nubes de puntos y todo lo demás, Keller, el CEO de la empresa de chips de IA Tenstorrent, cree que los modelos generativos más avanzados, especialmente los que provienen de la comunidad de software de código abierto, conducirán a un cambio profundo en la distinción del campo entre entrenamiento e inferencia.

El entrenamiento es cuando se desarrolla por primera vez una red neuronal. Es un proceso científico extremadamente costoso, en el que se utilizan cientos o incluso miles de GPUs. La inferencia es cuando la red terminada se utiliza para hacer predicciones para los usuarios finales, un proceso mucho menos exigente que se implementa ampliamente como un servicio en la nube.

Pero “los modelos generativos realmente utilizan muchas características del entrenamiento en la inferencia”, dijo Keller. Un programa como Stable Diffusion de Stability.ai, para generar imágenes, actualiza su red neuronal durante la inferencia, dijo. “Es multipase: tiene un pase hacia atrás” además del proceso típico de predicciones hacia adelante, por lo que “parece que está en modo de entrenamiento”.

Por esa razón, “creo que el motor de IA del futuro… tendrá un conjunto bastante diverso de capacidades que no se parecerán a la inferencia versus el entrenamiento”, sino más bien como una fusión de ambos.

Si Keller tiene razón, los modelos generativos futuros podrían ser el comienzo de un objetivo a largo plazo de aprendizaje continuo para el aprendizaje automático, también llamado a veces aprendizaje en línea, donde una red neural generativa no está fija una vez entrenada, sino que evoluciona continuamente a medida que las personas la utilizan más.

“Creo que esto va a ser así”, coincidió Mostaque de Stability.ai. “El aprendizaje continuo será clave, porque la forma en que lo hacemos ahora, enseñándole [al modelo] lo mismo una y otra vez, no es apropiada.”

Según Mostaque, cosas como el “Dream Booth” de Stability.ai, que permite construir una versión personalizada de una imagen, ya están superando la noción rígida de volver a entrenar un modelo de lenguaje-imagen a algo más fluido. Dijo que estos se convierten en avatares personales, y en los próximos meses, se convertirán en una especie de hiper-Dream Booth que permitirá la personalización de todas tus imágenes en tiempo real.

“Por eso el aprendizaje continuo será tan importante: para permitir ese proceso continuo y hacer que evolucione.”