Optimizando el Entrenamiento del Modelo de IA con la Herramienta de Curación Automatizada de Datos de DatologyAI’.

Una empresa emergente recientemente lanzada, DatologyAI, afirma tener la capacidad de curar automáticamente grandes conjuntos de datos utilizados para entrenar modelos de inteligencia artificial.

“`html

@DatologyAI está creando tecnología para ordenar automáticamente los datos de entrenamiento de IA | #ENBLE

Los conjuntos de datos de entrenamiento masivos son la puerta de entrada a modelos de IA potentes, pero a menudo también son la perdición de esos modelos. Los sesgos surgen de patrones prejuiciosos ocultos en grandes conjuntos de datos, como imágenes de CEO mayoritariamente blancos en un conjunto de clasificación de imágenes. Y los grandes conjuntos de datos pueden ser caóticos, llegando en formatos incomprensibles para un modelo, formatos que contienen mucho ruido e información superflua.

En una reciente encuesta de Deloitte a empresas que adoptan IA, el 40% afirmó que los desafíos relacionados con los datos, incluida la preparación y limpieza exhaustivas de los datos, estaban entre las principales preocupaciones que obstaculizaban sus iniciativas de IA. Una encuesta separada a científicos de datos encontró que aproximadamente el 45% del tiempo de los científicos se dedica a tareas de preparación de datos, como la carga y limpieza de datos.

Ari Morcos, que ha trabajado en la industria de IA durante casi una década, quiere abstraer muchos de los procesos de preparación de datos en torno al entrenamiento de modelos de IA, y ha fundado una startup para hacer precisamente eso.

Presentando DatologyAI

La compañía de Morcos, DatologyAI, crea herramientas para curar automáticamente conjuntos de datos como los utilizados para entrenar ChatGPT de OpenAI, Gemini de Google, y otros modelos de IA similares. La plataforma puede identificar qué datos son más importantes dependiendo de la aplicación de un modelo (por ejemplo, escribir correos electrónicos), maneras en que el conjunto de datos puede ser aumentado con datos adicionales, y cómo deben agruparse durante el entrenamiento del modelo.

“Los modelos son lo que comen — los modelos son un reflejo de los datos con los que se entrenan,” dijo Morcos a ENBLE en una entrevista por correo electrónico. “Sin embargo, no todos los datos se crean iguales, y algunos datos de entrenamiento son mucho más útiles que otros. Entrenar modelos con los datos correctos de la manera correcta puede tener un impacto dramático en el modelo resultante.”

Agilizando la Curación de Conjuntos de Datos de IA

DatologyAI tiene como objetivo agilizar todas las formas de curación de conjuntos de datos de IA. La composición de un conjunto de datos de entrenamiento afecta casi todas las características de un modelo entrenado en él, desde el rendimiento del modelo en las tareas hasta su tamaño y la profundidad de su conocimiento de dominio. Los conjuntos de datos más eficientes pueden reducir el tiempo de entrenamiento y producir un modelo más pequeño, ahorrando en costos de computación. Mientras tanto, los conjuntos de datos que incluyen una gama especialmente diversa de muestras pueden manejar solicitudes esotéricas de manera más hábil.

Con el interés en GenAI en su punto más alto, los costos de implementación de IA están en la mente de los ejecutivos. Muchas empresas optan por ajustar los modelos existentes o elegir servicios gestionados de proveedores a través de APIs. Sin embargo, otros están construyendo modelos con datos personalizados desde cero y gastando una cantidad significativa de recursos.

“Las empresas han recopilado verdaderos tesoros de datos y desean entrenar modelos de IA eficientes, de alto rendimiento y especializados que puedan maximizar el beneficio para su negocio,” dijo Morcos. “Sin embargo, hacer un uso efectivo de estos enormes conjuntos de datos es increíblemente desafiante y, si se hace incorrectamente, conduce a modelos con peor rendimiento que tardan más en entrenar y [son más grandes] de lo necesario.”

El Poder de DatologyAI

DatologyAI se destaca de otras herramientas de preparación y curación de datos por su capacidad para escalar hasta “petabytes” de datos en cualquier formato, incluidos texto, imágenes, video, audio, tabulares y modalidades más exóticas. Puede determinar qué conceptos dentro de un conjunto de datos requieren muestras de mayor calidad y qué datos podrían hacer que un modelo se comporte de manera no deseada.

“Resolver estos problemas requiere identificar automáticamente conceptos, su complejidad y cuánta redundancia es realmente necesaria,” dijo Morcos. “La augmentación de datos, a menudo mediante otros modelos o datos sintéticos, es increíblemente poderosa, pero debe hacerse de manera cuidadosa y enfocada.”

La Efectividad de la Curación Automatizada de Datos

Sin embargo, la pregunta surge: ¿qué tan efectiva es la tecnología de DatologyAI? Existe motivo para ser escéptico. La historia ha demostrado que la curación automática de datos no siempre funciona como se pretende. LAION, una organización sin fines de lucro alemana, se vio obligada a retirar un conjunto de datos de entrenamiento de IA curado algorítmicamente después de descubrir que el conjunto contenía imágenes de abuso sexual infantil. Los modelos entrenados con conjuntos de datos mixtos, incluso si se filtran por toxicidad, han demostrado generar contenido tóxico.

“““html

Algunos expertos argumentan que la curación manual es una necesidad para lograr resultados sólidos con un modelo de IA. Los mayores proveedores hoy dependen de expertos humanos y anotadores para dar forma y refinar sus conjuntos de datos de entrenamiento.

Morcos insiste en que la herramienta de DatologyAI no pretende reemplazar por completo la curación manual, sino ofrecer sugerencias que quizás no se le ocurran a los científicos de datos, especialmente sugerencias tangenciales para reducir el tamaño del conjunto de datos de entrenamiento. Tiene un historial en este dominio, habiendo coescrito un documento académico sobre la efectividad de la reducción de conjuntos de datos mientras se preserva el rendimiento del modelo.

“Identificar los datos correctos a escala es extremadamente desafiante y un problema de investigación fronterizo”, dijo Morcos. “[Nuestro enfoque] conduce a modelos que se entrenan de manera dramáticamente más rápida al mismo tiempo que aumentan el rendimiento en tareas posteriores.”

Apoyo de la Industria e Inversión

La tecnología de DatologyAI ha atraído el apoyo e inversión de titan…
“`

(Truncated for brevity)“`html

DatologyAI’s herramienta automatizada de curación de datos aporta nuevas posibilidades al campo del entrenamiento de modelos de IA. Al agilizar el proceso de preparación de conjuntos de datos y proporcionar información valiosa, ayuda a las empresas a optimizar sus iniciativas de IA. Si bien la curación automatizada de datos no es un sustituto de la curación manual, complementa la experiencia humana y mejora la eficiencia y efectividad del entrenamiento de modelos de IA. A medida que esta tecnología evoluciona, podemos esperar nuevos avances en el campo, lo que lleva a modelos de IA más potentes y éticos.

Referencias:Encuesta de DeloitteInterés de GenAIReputación de GenAILAION obligado a eliminar conjunto de datos para entrenamiento de IAGeneración de contenido tóxico por ChatGPTArtículo académico sobre recorte de conjuntos de datosLa dependencia de Google en expertos humanosInversores y financiamiento de DatalogyAI

¡Recuerda compartir este artículo con otros entusiastas de la IA que quieran revolucionar la forma en que curan conjuntos de datos para modelos de IA! 💻🚀💡

“`