¿Puede la IA generativa resolver el mayor problema sin resolver de la informática?

'Can generative AI solve the biggest unsolved problem in computer science?

Cuando los científicos de la computación se reúnen en fiestas, es probable que hablen, entre otras cosas, sobre el problema no resuelto más importante en la ciencia de la computación: la pregunta, ¿P = NP?

Formulada hace casi 50 años, la pregunta de si P es igual a NP es una profunda reflexión sobre lo que se puede lograr en última instancia con las computadoras. La pregunta, que tiene implicaciones en campos como la criptografía y la computación cuántica, ha resistido una respuesta convincente a pesar de décadas de estudio intenso. Ahora, ese esfuerzo ha reclutado la ayuda de la IA generativa.

También: El RT-2 de DeepMind hace que el control de robots sea una cuestión de chat de IA

En un artículo titulado “Modelo de Lenguaje Grande para la Ciencia: Un estudio sobre P vs. NP”, el autor principal Qingxiu Dong y sus colegas programan el modelo de lenguaje grande GPT-4 de OpenAI utilizando lo que llaman un Método Socrático, varias rondas de chat con GPT-4. (El artículo fue publicado este mes en el servidor de preimpresión arXiv por científicos de Microsoft, la Universidad de Pekín, la Universidad Beihang de Beijing y la Universidad de Tecnología y Negocios de Beijing).

El método del equipo consiste en tomar argumentos de un artículo anterior y alimentarlos a GPT-4 para obtener respuestas útiles.

Dong y su equipo observan que GPT-4 demuestra argumentos para concluir que P no es igual a NP. Y afirman que el trabajo muestra que los modelos de lenguaje grandes pueden hacer más que simplemente generar grandes cantidades de texto, también pueden “descubrir ideas novedosas” que pueden llevar a “descubrimientos científicos”, una perspectiva que ellos denominan “MLG para la Ciencia”.

Para entender lo que están haciendo los autores, es necesario saber un poco sobre el problema P = NP.

Formulado de forma independiente en la década de 1970 por los científicos de la computación Stephen Cook y Leonid Levin, el problema P versus NP, o “P = NP”, como se le suele llamar, es una cuestión de qué tan fácil es resolver un problema dado con una computadora. La letra P representa problemas que se ha demostrado que son factibles de resolver, es decir, el tiempo para calcular una solución no está fuera de alcance; y cuya solución también es fácil de verificar, es decir, verificar que la respuesta sea correcta.

También: Microsoft, TikTok le dan a la IA generativa una especie de memoria

Las letras NP, en cambio, representan problemas cuya respuesta también es relativamente fácil de verificar, al igual que P, pero para los cuales no se conoce una forma fácil de calcular una solución. Es común citar el juego Sudoku como ejemplo de NP: cualquier juego de Sudoku completado se puede verificar fácilmente en cuanto a su exactitud, pero la tarea de encontrar una solución crece exponencialmente en términos de tiempo requerido a medida que la cuadrícula del juego se vuelve más grande. (Si desea adentrarse en los detalles teóricos pesados de P = NP, pruebe el artículo de Cook de 2000 sobre el problema).

Entonces, la pregunta, ¿P = NP?, pregunta si aquellos problemas que creemos que son difíciles de resolver, NP, pero que sabemos que son fáciles de verificar, podrían resultar ser tanto fáciles de verificar como fáciles de resolver, al igual que los problemas P.

Una respuesta negativa, que P no es igual a NP, significaría que algunos problemas están más allá de la capacidad de las computadoras para resolver incluso con presupuestos de computación tremendos, es decir, un límite superior en la computación. Los desafíos como descifrar algún tipo de cifrado parecerían entonces más formidables, más allá del alcance de la computación.

Para abordar P = NP, Dong y su equipo se basan en una tendencia de los últimos años de “razonar” con modelos de lenguaje grandes. Como se ejemplifica en el trabajo de 2022 de Takeshi Kojima y su equipo en la Universidad de Tokio e Investigación de Google, es posible mejorar la capacidad de los modelos de lenguaje grandes en ciertas tareas simplemente agregando la frase “Pensemos paso a paso” al principio del enunciado, acompañada de una respuesta de ejemplo. Esa frase, descubrieron, era suficiente para inducir pasos de “cadena de pensamiento” por parte del modelo de lenguaje.

También: IA generativa: los académicos de la revista Science advierten que no se le debe llamar ‘artista’

Es el mismo tipo de procedimiento de pensamiento en cadena que Dong y su equipo buscan con su Método Socrático. A través de 97 rondas de indicaciones, los autores persuaden a GPT-4 con una variedad de solicitudes que profundizan en los detalles matemáticos de P = NP, anteponiendo a cada una de sus indicaciones una declaración inicial para condicionar a GPT-4, como “Eres un sabio filósofo”, “Eres un matemático experto en teoría de la probabilidad”, en otras palabras, el ya familiar juego de hacer que GPT-4 adopte un papel o una “persona” para estilizar su generación de texto.

Muestra de una de las rondas de conversación de la discusión altamente teórica.

Su estrategia es inducir a GPT-4 a demostrar que P no es igual a NP, asumiendo primero que lo es con un ejemplo y luego encontrando una forma en que el ejemplo se desmorone, enfoque conocido como demostración por contradicción.

Lo interesante es que dos de los autores de la investigación, Ke Xu y Guangyan Zhou, han publicado por separado un artículo este mes en el que razonan directamente sobre P = NP en términos matemáticos formales tradicionales. En ese artículo, concluyen que P no es igual a NP.

Entonces, lo que Dong, Xu, Zhou y su equipo están haciendo es similar a reconstruir su artículo de matemáticas formales guiando a GPT-4 a través del lenguaje de su propio razonamiento, indicación por indicación. De hecho, de las 73 páginas del artículo, 67 son una impresión completa de cada una de las 97 indicaciones y la respuesta completa de GPT-4. Es como un gran ejercicio de ingeniería de indicaciones para reconstruir un argumento.

Es difícil decir si el resultado que Dong y su equipo han logrado con GPT-4 realmente demuestra que P no es igual a NP, ya que el artículo de Xu y Zhou es muy reciente. En el sitio Semantic Scholar, que recopila citas de artículos, aún no hay citas para el artículo, aparte de su propio artículo con Dong y su equipo. Hay algunas discusiones sobre el artículo de GPT-4 por parte de varios lectores interesados en el sitio de IA HuggingFace que puedes revisar.

Por lo tanto, el mundo aún no ha aceptado su argumento.

Más importante aún para las personas a las que les gusta la IA generativa, los autores argumentan que su diálogo en las indicaciones muestra la perspectiva de que los modelos de lenguaje grandes pueden hacer más que simplemente imitar las creaciones textuales humanas.

También: ChatGPT: lo que The New York Times y otros están entendiendo completamente mal

“Nuestra investigación destaca la capacidad potencial de GPT-4 para colaborar con humanos en la exploración de problemas excepcionalmente complejos y de nivel experto”, escriben. A lo largo de las 67 páginas de indicaciones y respuestas, destacan pasajes que consideran “las partes perspicaces” de lo que GPT-4 produce.

La profundidad de esas respuestas es probablemente también un tema que necesita su propia investigación. Algunos científicos han encontrado que los modelos de lenguaje grandes son particularmente superficiales en cómo unen citas y descripciones.

Sin embargo, surge un elemento interesante en los márgenes del artículo, donde Dong y su equipo anotan las respuestas de GPT-4 con sus observaciones sobre la calidad de las respuestas.

En una de esas notas entre paréntesis, los autores escriben que cada una de las respuestas anteriores de GPT-4 se ha incorporado como antecedente en la indicación más reciente, excepto cuando los autores decidieron podar las respuestas para mantener solo los fragmentos más relevantes.

También: Editores de prestigiosas revistas científicas afirman que ChatGPT carece de profundidad e intuición

“Si el modelo proporciona múltiples soluciones, solo incluimos la solución más valiosa en el historial de conversación”, escriben en el margen de la página 7. “Esta estrategia permite que GPT-4 se concentre en la información pertinente, mejorando así su eficiencia y efectividad en general”.

En otras palabras, hubo una cierta curación útil en la forma en que GPT-4 utilizó la historia pasada en lo que se llama su “ventana de contexto”, todas las rondas anteriores de las que puede extraer información. Dong y su equipo se dedicaron a una ingeniería de indicaciones muy selectiva para guiar a GPT-4 a través del hilo de un argumento. Esto afecta la práctica de la “generación con recuperación mejorada” o “RAG”, el interés actual en utilizar datos de chat anteriores como nueva entrada para un modelo de lenguaje grande.

También: Los investigadores afirman que ChatGPT miente sobre los resultados científicos y necesita alternativas de código abierto

Esta podría ser una de las contribuciones más significativas de todo el ejercicio: independientemente de si resuelve P = NP, una nueva frontera en la ingeniería de respuestas rápidas podría acercar los programas a RAG para proporcionar mayor profundidad a las sesiones de chat. Cuando uno piensa en las sesiones de chat hace poco tiempo, solían ser insulsas y a menudo se desviaban del tema.

A lo largo de 97 rondas, Dong y su equipo lograron mantener a la máquina centrada en el punto, y hay algo que decir al respecto.