OpenAI acaba de revelar DALL-E 3, su nuevo generador de imágenes

OpenAI revela DALL-E 3, su nuevo generador de imágenes

OpenAI, la empresa matriz de ChatGPT, ha presentado su primera vista previa pública oficial de DALL-E 3, su último modelo de generación de imágenes. Lanzado el miércoles en un pequeño evento para periodistas, DALL-E 3 se presenta como una herramienta que comprende completamente las indicaciones de texto complejas y produce imágenes que se ajustan a esa complejidad.

Como señala una nueva página de información sobre DALL-E 3 en el sitio web de OpenAI, “Los sistemas modernos de texto a imagen tienden a ignorar palabras o descripciones, obligando a los usuarios a aprender a diseñar indicaciones. DALL-E 3 representa un avance en nuestra capacidad para generar imágenes que se ajustan exactamente al texto que proporcionas”.

Imágenes posibles de una versión en progreso de DALL-E 3 fueron filtradas en Discord a principios de este verano y mostraron un enorme potencial en línea con lo que se muestra en la vista previa de prensa. La persona que filtró las imágenes afirmó haberle proporcionado a DALL-E 3 la indicación larga “pintura de un bufón rosa dando un choca esos cinco a un panda en una competencia de ciclismo. Las bicicletas están hechas de queso y el suelo está muy embarrado. Están conduciendo en un bosque brumoso. El panda está enojado”. La imagen resultante fue sorprendentemente fiel a esa solicitud.

Generadores de imágenes como Midjourney y Stable Diffusion, aunque capaces de imitar el fotorealismo y producir representaciones de una amplia gama de objetos, estilos y personas (con no poca controversia en su haber), sin duda tendrán dificultades para producir algo tan complejo.

Estos generadores de imágenes, así como las ofertas anteriores de OpenAI en este ámbito, también fallan notoriamente cuando se les pide producir imágenes que incluyan texto, generalmente generando un sinsentido confuso en el mejor de los casos y malapropismos hilarantes en el peor. DALL-E 3 parece ser mucho más capaz de incorporar texto coherente en las imágenes, como se demuestra en un dibujo animado publicado en X por el CEO de OpenAI, Sam Altman.

El tuit puede haber sido eliminado

OpenAI dice que integrará DALL-E 3 directamente en ChatGPT e insinúa que el chatbot cambiará de un modelo a otro según el contenido de la indicación. ChatGPT, que antes era simplemente una fuente amigable de salidas de texto del modelo GPT-3.5, está evolucionando rápidamente, incorporando complementos de terceros con la capacidad de extraer texto de otras fuentes, incluida la web. Este movimiento diversifica aún más las capacidades de ChatGPT, ampliando la ya tensa definición del término “chatbot”.

DALL-E 3 “se implementará gradualmente para todos los usuarios de ChatGPT+” en las próximas semanas, según Altman. El sitio web de OpenAI dice que todos los clientes de ChatGPT Plus y ChatGPT Enterprise podrán usarlo “a principios de octubre” y que OpenAI no reclamará derechos de autor sobre las salidas del modelo. Sin embargo, si planeas generar algo con DALL-E 3 y luego reclamar los derechos de autor tú mismo, eso es otro tema complicado.