Se retiró como líder de GenAI en protesta. Ahora quiere crear sistemas más justos para los artistas.

Renunció como líder de GenAI en protesta. Ahora busca crear sistemas más equitativos para los artistas.

Ed Newton-Rex había alcanzado un punto de quiebre. Como vicepresidente de audio en Stability AI, este hombre de 36 años estaba a la vanguardia de una revolución en la creatividad computacional. Pero había creciente malestar acerca de la estrategia del movimiento.

Stability se estaba convirtiendo en un gigante emergente en la IA generativa. La startup con sede en Londres posee Stability Diffusion, uno de los generadores de imágenes más populares del mundo. También se expandió recientemente al ámbito de la generación musical con el lanzamiento en septiembre de Stable Audio, una herramienta desarrollada por el propio Newton-Rex. Pero estos dos sistemas estaban tomando caminos opuestos.

Stable Audio se entrenó con música con licencia. Al modelo se le suministró un conjunto de datos de más de 800,000 archivos de la biblioteca de música de archivo AudioSparx. Cualquier material con derechos de autor se proporcionó con permiso.

Stable Diffusion tomó otro rumbo. El sistema se entrenó con miles de millones de imágenes recopiladas de la web sin el consentimiento de los creadores. Muchas de ellas eran material con derechos de autor. Todas fueron tomadas sin pago alguno.

Estas imágenes le enseñaron mucho al modelo. Las salidas de Diffusion elevaron el valor de Stability a $1,000 millones en una ronda de financiamiento de $101 millones el año pasado. Pero el sistema estaba atrayendo oposición por parte de los artistas, incluido Newton-Rex.

El dilema ético de GenAI

Newton-Rex, pianista y compositor, así como pionero de GenAI, no estaba de acuerdo con el proceso de recolección no autorizada.

“Siempre he querido asegurarme de que estas herramientas se construyan con el consentimiento de los creadores detrás de los datos de entrenamiento”, afirma Newton-Rex durante una videollamada desde su hogar en Silicon Valley.

Stability estaba lejos de ser el único exponente de este método. Los generadores de imágenes MidJourney y Dall-E aplican el mismo enfoque, al igual que el generador de texto ChatGPT de OpenAI y el programador CoPilot. Las artes visuales, las obras escritas, la música e incluso el código ahora se están reeditando constantemente sin consentimiento.

En respuesta, los creadores y titulares de derechos de autor han iniciado numerosos litigios. Están enfadados porque su trabajo se está tomando, adaptando y monetizando sin permiso o remuneración. También están preocupados por sus medios de vida.

“Es de interés para la industria de la IA hacer que la gente piense que solo los grandes jugadores pueden hacer esto”.

Los artistas dicen que la IA generativa está robando su trabajo. Las compañías detrás de estos sistemas están en desacuerdo. En una presentación reciente ante la Oficina de Derechos de Autor de los Estados Unidos, Stability argumentó que el entrenamiento era “uso legítimo” porque los resultados son “transformadores” y “socialmente beneficiosos”.

En consecuencia, la compañía afirmó que no había infracción de derechos de autor y que la práctica podía continuar sin permiso ni pagos. Esta es una afirmación que se ha vuelto común en GenAI, pero Newton-Rex la disputó.

“Realmente mostró en qué punto se encuentra la industria en este momento, y no es un lugar en el que esté contento”, dice.

Newton-Rex considera que esta práctica es una forma de explotación. La semana pasada, renunció a Stability en señal de protesta.

Su partida no significa que Newton-Rex haya abandonado la IA generativa. Al contrario, planea seguir trabajando en este campo, pero siguiendo un modelo más justo. No es la misión imposible que los gigantes de GenAI podrían describir. De hecho, ya ha sido logrado por varias compañías.

Existen alternativas

Newton-Rex tiene una larga trayectoria en la creatividad computacional. Después de estudiar música en la Universidad de Cambridge, fundó Jukedeck, un pionero compositor de IA. La aplicación utilizaba el aprendizaje automático para componer música original bajo demanda. En 2019, la adquirió Bytedance, propietario de TikTok.

Newton-Rex luego trabajó como director de productos en TikTok y como director de productos en Voicey, una aplicación de colaboración musical que fue adquirida por Snap, antes de unirse a Stability AI el año pasado. Se le asignó liderar los esfuerzos de audio de la startup.

“Quería construir un producto en generación de música que mostrara lo que se puede hacer con datos con licencia reales, donde estés de acuerdo con los titulares de derechos”, dice.

Ese objetivo lo puso en desacuerdo con muchos líderes de la industria. GenAI se estaba adentrando en el mercado y las empresas se apresuraban a lanzar nuevos sistemas lo más rápido posible. Raspar contenido de la web era un atajo atractivo.

También era demostrablemente efectivo. En ese momento, aún había dudas de que los conjuntos de datos con licencia fueran lo suficientemente grandes para entrenar modelos de última generación. También se plantearon dudas sobre la calidad de los datos. Pero ambas suposiciones ahora están siendo refutadas.

“Lo que llamamos datos de entrenamiento es realmente la producción creativa humana”.

Stable Audio proporcionó una fuente de evidencia en contra. El modelo subyacente del sistema fue entrenado con música con licencia en colaboración con los titulares de derechos. Las salidas resultantes han sido aclamadas. El mes pasado, Time nombró a Stable Audio una de las mejores invenciones de 2023.

“Durante un par de meses, fue el estado del arte en la generación de música, y fue entrenado con música que licenciamos”, dice Newton-Rex. “Para mí, eso demostró que se puede hacer”.

De hecho, ahora hay una lista creciente de empresas que demuestran que se puede hacer. Una de ellas es Adobe, que recientemente lanzó un modelo generativo de aprendizaje automático llamado Firefly. El sistema se entrena con imágenes de Creative Commons, Wikimedia y Flickr Commons, así como con 300 millones de imágenes y videos en Adobe Stock y dominio público.

Dado que estos datos se proporcionan con permiso, son seguros para uso comercial. Adobe también enfatizó que los creadores cuyo trabajo se utilice tendrán derecho a pagos.

Un collage de imágenes generadas por Adobe Firefly
Las imágenes de este collage fueron generadas por Adobe Firefly, que fue entrenado con imágenes con licencia. Crédito: Adobe

Otro modelo alternativo viene de Getty Images. En septiembre, la compañía lanzó Generative AI by Getty Images, que se entrena únicamente en la enorme biblioteca de la plataforma. Craig Peters, CEO de la empresa, dijo que la herramienta aborda “las necesidades comerciales respetando la propiedad intelectual de los creadores”.

Nvidia también ha desarrollado GenAI en colaboración con titulares de derechos de autor. El servicio Picasso de la gigante tecnológica se entrenó con imágenes con licencia de Getty Images, Shutterstock y Adobe. Nvidia planea pagar regalías.

Estos enfoques no funcionarán para todos. Como megaempresas con grandes reservas de contenido, las compañías detrás de ellos tienen recursos que pocas empresas pueden igualar. Sin embargo, las startups están demostrando que la obtención de licencias también se puede hacer con un presupuesto reducido.

GenAI para las personas

Bria AI ha proporcionado un ejemplo. La empresa ha desarrollado un nuevo modelo comercial de código abierto para generación de imágenes de alta calidad. Todo el entrenamiento se realiza en conjunto con conjuntos de datos con licencia, que se crearon en colaboración con agencias de fotografía de archivo líderes y artistas. Un modelo de reparto de ingresos proporciona compensación a los creadores y titulares de derechos por su contribución.

Es un enfoque similar al que Newton-Rex usó en Stable Audio, pero no es el único.

Las compañías también pueden proporcionar pagos iniciales a los artistas, crear empresas conjuntas en las que los titulares de derechos tengan participación accionaria en el negocio o utilizar contenido con licencias de Creative Commons, que se puede reutilizar libremente sin permiso explícito. Las empresas de GenAI pueden desestimar estos esfuerzos, pero tienen motivaciones ocultas.

“Es del interés de la industria de la IA hacer que la gente piense que solo los grandes jugadores pueden hacer esto, pero no es cierto”, dice Newton-Rex.

“Es posible que necesites ser un poco ingenioso. Sin duda, tendrás que negociar y estar dispuesto a dedicar tiempo. Pero en última instancia, lo que llamamos datos de entrenamiento, y lo que realmente es producción creativa humana, es un recurso para las empresas de tecnología. Necesitan trabajar para obtenerlo de la misma manera en que necesitan trabajar para obtener cualquier recurso”.

Si están dispuestos a hacerlo, GenAI puede funcionar en armonía con los artistas humanos. Y, con suerte, permitirnos disfrutar de la creatividad desatada por ambos.