Un vistazo al curioso comportamiento de pausa invernal de ChatGPT-4

Una mirada al curioso comportamiento de pausa invernal de ChatGPT-4

El generador de inteligencia artificial (IA) más popular del mundo está volviéndose “perezoso” a medida que se acerca el invierno, según afirman algunos usuarios astutos de ChatGPT.

Según un informe reciente de ArsTechnica a finales de noviembre, los usuarios de ChatGPT, el chatbot de IA impulsado por el modelo de lenguaje natural GPT-4 de OpenAI, comenzaron a notar algo extraño. En respuesta a ciertas solicitudes, GPT-4 se negaba a completar tareas o proporcionaba respuestas “perezosas” simplificadas en lugar de las respuestas detalladas típicas.

OpenAI reconoció el problema pero afirmó que no actualizaron intencionalmente el modelo. Algunos especulan ahora que esta pereza puede ser una consecuencia no intencionada de GPT-4 imitando cambios estacionales en el comportamiento humano.

Apodada la “hipótesis del descanso de invierno”, la teoría sugiere que debido a que GPT-4 recibe la fecha actual, ha aprendido de sus vastos datos de entrenamiento que las personas tienden a finalizar grandes proyectos y reducir la velocidad en diciembre. Los investigadores están investigando urgentemente si esta idea aparentemente absurda tiene peso. El hecho de que se tome en serio subraya la naturaleza impredecible y similar a la humana de los grandes modelos de lenguaje (LLM, por sus siglas en inglés) como GPT-4.

El 24 de noviembre, un usuario de Reddit informó haberle pedido a GPT-4 que llenara un archivo CSV grande, pero solo proporcionó una entrada como plantilla. El 1 de diciembre, Will Depue de OpenAI confirmó el conocimiento de los “problemas de pereza” relacionados con “rechazos excesivos” y se comprometió a solucionarlos.

Algunos argumentan que GPT-4 siempre fue ocasionalmente “perezoso” y las observaciones recientes son simplemente sesgos de confirmación. Sin embargo, el momento en que los usuarios notaron más rechazos después de la actualización de GPT-4 Turbo del 11 de noviembre es interesante si bien coincidental, y algunos lo interpretaron como un nuevo método de OpenAI para ahorrar en computación.

Entreteniendo la teoría del “descanso de invierno”

El 9 de diciembre, el desarrollador Rob Lynch descubrió que GPT-4 generaba 4.086 caracteres cuando se le daba una fecha de diciembre, en comparación con los 4.298 para una fecha de mayo. Aunque el investigador de IA Ian Arawjo no pudo reproducir los resultados de Lynch en un grado estadísticamente significativo, la naturaleza subjetiva del sesgo de muestreo con los LLMs hace que la reproducibilidad sea notoriamente difícil. Mientras los investigadores se apresuran a investigar, la teoría continúa intrigando a la comunidad de IA.

Geoffrey Litt de Anthropic, el creador de Claude, lo llamó “la teoría más divertida de todas”, pero admitió que es difícil descartarla dada la forma extraña en que los LLMs reaccionan a las indicaciones y aliento estilo humano, como se muestra en las cada vez más extrañas indicaciones. Por ejemplo, la investigación muestra que los modelos GPT mejoran los resultados matemáticos cuando se les dice “respira hondo”, mientras que la promesa de una “pista” alarga las completaciones. La falta de transparencia en torno a los posibles cambios en GPT-4 hace que incluso las teorías improbables valgan la pena explorar.

Este episodio demuestra la imprevisibilidad de los grandes modelos de lenguaje y las nuevas metodologías necesarias para comprender sus capacidades y limitaciones emergentes. También muestra la colaboración global en curso para evaluar con urgencia los avances en IA que impactan en la sociedad. Finalmente, es un recordatorio de que los LLMs actuales aún requieren una supervisión y pruebas extensas antes de su implementación responsable en aplicaciones del mundo real.

La “hipótesis del descanso de invierno” detrás de la aparente pereza estacional de GPT-4 puede resultar falsa o ofrecer nuevas ideas que mejoren futuras iteraciones. De cualquier manera, este curioso caso ejemplifica la naturaleza extrañamente antropomórfica de los sistemas de IA y la prioridad de comprender los riesgos junto con la búsqueda de innovaciones rápidas.

Imagen destacada: Pexels