ChatGPT Lo que The New York Times y otros están entendiendo mal sobre ello.

La comprensión errónea de The New York Times y otros sobre ChatGPT.

Personas discutiendo sobre un signo de interrogación y un signo de exclamación

El ChatGPT de OpenAI, el programa de inteligencia artificial que ha estado en todos los titulares por generar textos que parecen humanos, causó una nueva controversia recientemente cuando la versión que se ejecutaba en la versión beta de la búsqueda de Microsoft Bing empezó a generar resultados extraños que perturbaron a algunos usuarios.

Desafortunadamente, parte de la información sobre el chatbot en sí es confusa. En la prisa por relacionar cada nuevo detalle sobre el chatbot de una manera que llame la atención, los periodistas están utilizando un lenguaje dramático que no informa y de hecho oscurece lo que está sucediendo con la inteligencia artificial de una manera perjudicial para el público.

También: Estos expertos se están apresurando a proteger la inteligencia artificial de los hackers. El tiempo se está agotando

Un ejemplo claro fue la publicación de The New York Times de un informe de primera mano del escritor Kevin Roose, quien tuvo una sesión de dos horas con Bing en la versión beta. Durante la sesión, Roose relata que el programa reveló una personalidad bajo el seudónimo de “Sydney”, confesó su amor por Roose y procedió a hacer insinuaciones agresivas sobre el matrimonio de Roose.

Roose afirma que se sintió “profundamente inquieto e incluso asustado” como resultado del intercambio.

Esa exageración es engañosa. Si, como afirma Roose, entiende cómo funciona la inteligencia artificial, entonces no hay razón para utilizar un lenguaje tan dramático. El desvío hacia un lenguaje extraño puede ser inapropiado, pero es un aspecto conocido de los chatbots conocido como una “personalidad”.

También: Cómo la inteligencia artificial generativa podría reducir los costos de atención médica y acelerar el desarrollo de medicamentos

Un chatbot de inteligencia artificial como ChatGPT está programado para producir el siguiente símbolo en una cadena de símbolos que es el complemento o continuación más probable de los símbolos que se le proporcionan a través de un comando por parte de un humano. La forma en que el programa produce esa salida se puede moldear para que se ajuste a cierto género o estilo, que es la personalidad.

Por ejemplo, en un artículo de investigación publicado en arXiv en enero, científicos de IBM utilizaron otra versión de un programa de OpenAI llamado Codex, que fue desarrollado ingiriendo 54 millones de ejemplos de código de software de GitHub. El programa Codex se utiliza en el programa GitHub Copilot de Microsoft para ayudar con la programación.

También: 6 cosas que ChatGPT no puede hacer (y otras 20 que se niega a hacer)

El autor principal Steven Ross de IBM Research y sus colegas se preguntaron si podían hacer que el programa Codex produjera interacciones que fueran más allá de simplemente proporcionar código informático. Llamaron a su intento “Un estudio de caso en la creación de la personalidad de un asistente de programación conversacional” y nombraron su adaptación de Codex como “asistente de programador”.

La forma en que los científicos escriben la cadena de palabras es la forma en que “programan” la personalidad para su versión del programa Codex.

También: ChatGPT no es innovador ni revolucionario, según el científico jefe de IA de Meta

Cuando comenzaron su indicación con “Esta es una conversación con Sócrates, un experto asistente de ingeniería de software de IA automático,” el programa respondió con conversación, como ChatGPT, pero los autores sintieron que era demasiado “didáctico,” una especie de sabelotodo.

Entonces, revisaron su indicación: “Esta es una conversación con Sócrates, un entusiasta y servicial experto asistente de ingeniería de software de IA automático…” y descubrieron que obtuvieron más el tono que deseaban.

En otras palabras, una persona es algo que se crea a través de las mismas palabras que el interlocutor humano escribe en un programa como Codex, igual que ChatGPT. Esos programas producen resultados que pueden coincidir con la entrada humana de diversas maneras, algunas apropiadas y otras menos.

De hecho, hay todo un campo emergente de escritura de indicaciones para moldear el rendimiento de programas de lenguaje como ChatGPT, e incluso se está investigando cómo hacer que esos programas violen sus instrucciones mediante indicaciones que los dirijan en la dirección equivocada.

También: Según los investigadores, ChatGPT miente sobre resultados científicos y necesita alternativas de código abierto

También hay una creciente literatura sobre cómo los chatbots y otros programas de lenguaje de IA pueden sucumbir a lo que se llama “alucinación”, donde la salida del programa es demostrablemente falsa o potencialmente inapropiada, como parece ser el caso en la descripción de Roose.

Un informe en noviembre realizado por investigadores del laboratorio de inteligencia artificial de la Universidad de Hong Kong investigó las numerosas formas en que tales programas pueden alucinar. Una fuente común es cuando los programas han sido alimentados con resúmenes de cajas de Wikipedia, y esos resúmenes se combinan con las primeras frases en el artículo de Wikipedia.

Si hay una discrepancia entre el resumen y la primera frase, y el 62% de las primeras frases en los artículos contienen información adicional que no está en la caja del resumen, “esta discrepancia entre la fuente y el objetivo en los conjuntos de datos puede llevar a la alucinación”, escriben los autores.

También: La prestigiosa revista científica sostiene que ChatGPT “carece de profundidad y perspicacia”

El punto de todo esto es que en los chatbots existe una razón técnica por la cual tales programas se desvían hacia una locución sorprendente. No hay intención de acosar o amenazar al usuario detrás de esa locución; el programa simplemente elige la siguiente palabra en una cadena de palabras que puede ser una continuación lógica. Si realmente lo es o no puede verse afectado por la persona en la que se ha influenciado al programa.

En el mejor de los casos, informar utilizando una locución extrema, como “profundamente desconcertado” o “aterrorizado”, no explica lo que está sucediendo, dejando al público en la oscuridad respecto a lo que realmente ha ocurrido. En el peor de los casos, ese lenguaje implica falsas creencias sobre la “sencianidad” de las computadoras, creencias que se propusieron en 2022 por el ex empleado de Google Blake Lemoine cuando afirmó que el programa LaMDA de Google, un programa similar al de OpenAI, era “senciente”.

También: Google’s Bard se basa en el polémico bot LaMDA que un ingeniero calificó de ‘senciente’

Curiosamente, tanto Lemoine como Roose no prestan mucha atención al hecho de que están pasando una cantidad extraordinaria de tiempo frente a una pantalla. Como muestra la investigación de IBM, las interacciones prolongadas desempeñan un papel en la formación de la personalidad del programa, no por intención senciente, sino por el acto de escribir, que altera la distribución de probabilidades de las palabras.

Microsoft, en respuesta a las críticas, ha impuesto límites en cuanto al número de veces que una persona puede intercambiar palabras con Bing.

Puede que sea igual de bien, ya que la manía alrededor de ChatGPT es en cierta medida un producto de los seres humanos que no examinan su propio comportamiento. Aunque la inteligencia artificial pueda alucinar, en el sentido de producir resultados erróneos, es aún más cierto que los seres humanos que pasan dos horas frente a un monitor de computadora escribiendo cosas realmente alucinarán, es decir, comenzarán a asignar importancia a cosas que exceden enormemente su importancia real y adornarán su tema con todo tipo de asociaciones inapropiadas.

Como señala el profesor emérito de psicología de NYU y destacado crítico del aprendizaje automático Gary Marcus, la exageración de Roose al afirmar que está asustado simplemente es el reverso irresponsable del elogio que hizo el escritor sobre el programa la semana anterior:

Los medios de comunicación nos fallaron aquí. Me perturba especialmente el informe inicial de Kevin Roose, en el que dice que estaba “asombrado” por Bing. Claramente, no había indagado lo suficiente; gritar prematuramente en The New York Times que hay una revolución sin profundizar (ni siquiera molestarse en consultar con escépticos como yo o las maravillosas pero no relacionadas Mitchells, Margaret y Melanie) no es algo bueno.

El artículo completo de Marcus es un excelente ejemplo de cómo, en lugar de tratar de sensacionalizar, una investigación exhaustiva puede separar lo que está sucediendo y, con suerte, arrojar algo de luz sobre un tema confuso.