Aquí está por qué las personas piensan que GPT-4 podría estar volviéndose más tonto | ENBLE

Por qué piensan que GPT-4 podría estar volviéndose más tonto | ENBLE

Tan impresionante como fue GPT-4 en su lanzamiento, algunos observadores han notado que ha perdido parte de su precisión y poder. Estas observaciones se han publicado en línea durante meses, incluyendo en los foros de OpenAI.

Estos sentimientos han estado ahí por un tiempo, pero ahora finalmente podemos tener pruebas. Un estudio realizado en colaboración con la Universidad de Stanford y UC Berkeley sugiere que GPT-4 no ha mejorado su habilidad de respuesta, sino que de hecho ha empeorado con las actualizaciones adicionales al modelo de lenguaje.

El estudio, llamado ¿Cómo está cambiando el comportamiento de ChatGPT con el tiempo?, probó la capacidad entre GPT-4 y la versión anterior del lenguaje GPT-3.5 entre marzo y junio. Probando las dos versiones del modelo con un conjunto de datos de 500 problemas, los investigadores observaron que GPT-4 tenía una tasa de precisión del 97,6% en marzo con 488 respuestas correctas y una tasa de precisión del 2,4% en junio después de que GPT-4 hubiera pasado por algunas actualizaciones. El modelo solo produjo 12 respuestas correctas meses después.

Otra prueba utilizada por los investigadores fue una técnica de cadena de pensamiento, en la cual le preguntaron a GPT-4 “¿Es 17.077 un número primo?”. Una pregunta de razonamiento. No solo GPT-4 respondió incorrectamente que no, sino que no dio ninguna explicación de cómo llegó a esta conclusión, según los investigadores.

El estudio llega solo seis días después de que un ejecutivo de OpenAI intentara calmar las sospechas de que GPT-4, de hecho, se estaba volviendo más tonto. El siguiente tuit implica que la degradación en la calidad de las respuestas es un fenómeno psicológico debido al uso intensivo.

Cabe destacar que GPT-4 actualmente está disponible para desarrolladores o miembros pagados a través de ChatGPT Plus. Hacer la misma pregunta a GPT-3.5 a través de la vista previa gratuita de investigación de ChatGPT, como hice yo, te brinda no solo la respuesta correcta, sino también una explicación detallada del proceso matemático.

Además, la generación de código ha sufrido, con los desarrolladores de LeetCode habiendo visto un descenso en el rendimiento de GPT-4 en su conjunto de datos de 50 problemas fáciles, pasando de una precisión del 52% a una precisión del 10% entre marzo y junio.

Para agregar combustible al fuego, el comentarista de Twitter, @svpino, señaló que hay rumores de que OpenAI podría estar utilizando “modelos más pequeños y especializados de GPT-4 que actúan de manera similar a un modelo grande pero son menos costosos de ejecutar”.

Esta opción más barata y rápida podría estar llevando a una disminución en la calidad de las respuestas de GPT-4 en un momento crucial en el que la empresa matriz tiene muchas otras grandes organizaciones que dependen de su tecnología para la colaboración.

No todos piensan que el estudio demuestre algo, sin embargo. Algunos han señalado que un cambio en el comportamiento no equivale a una reducción en la capacidad. Esto se reconoce en el propio estudio, que afirma que “un modelo que tiene una capacidad puede o no mostrar esa capacidad en respuesta a una solicitud particular”. En otras palabras, obtener el resultado deseado puede requerir diferentes tipos de solicitudes por parte del usuario.

Cuando se anunció por primera vez GPT-4, OpenAI detalló su uso de supercomputadoras de inteligencia artificial de Microsoft Azure para entrenar el modelo de lenguaje durante seis meses, afirmando que el resultado era un 40% más de probabilidad de generar la “información deseada a partir de las solicitudes del usuario”.

ChatGPT, basado en el LLM GPT-3.5, ya se conocía por tener desafíos en cuanto a la información, como tener un conocimiento limitado de los eventos mundiales posteriores a 2021, lo que podría llevarlo a llenar vacíos con datos incorrectos. Sin embargo, la regresión de la información parece ser un problema completamente nuevo que nunca se había visto antes con el servicio. Los usuarios esperaban actualizaciones para abordar los problemas aceptados.

El CEO de OpenAI, Sam Altman, expresó recientemente su decepción en un tuit tras el lanzamiento de una investigación por parte de la Comisión Federal de Comercio para determinar si ChatGPT ha violado las leyes de protección al consumidor.

“Somos transparentes sobre las limitaciones de nuestra tecnología, especialmente cuando no cumplimos con las expectativas. Y nuestra estructura de beneficios limitados significa que no tenemos incentivos para obtener ganancias ilimitadas”, tuiteó.