Microsoft presenta Phi-2, un pequeño modelo de lenguaje que lleva un gran potencial.

Microsoft presenta Phi-2, un pequeño pero poderoso modelo de lenguaje.

Phi-2 Microsoft Ignite

Cuando piensas en modelos de lenguaje en relación con la inteligencia artificial generativa (IA), probablemente la primera palabra que te viene a la mente es el modelo de lenguaje grande (LLM, por sus siglas en inglés). Estos LLM alimentan la mayoría de los chatbots populares, como ChatGPT, Bard y Copilot. Sin embargo, el nuevo modelo de lenguaje de Microsoft está aquí para demostrar que los modelos de lenguaje pequeños (SLM, por sus siglas en inglés) también tienen un gran potencial en el espacio de la IA generativa.

El miércoles, Microsoft lanzó Phi-2, un pequeño modelo de lenguaje capaz de razonamiento de sentido común y comprensión del lenguaje, y ahora está disponible en el catálogo de modelos de Azure AI Studio.

No te dejes engañar por la palabra “pequeño”. Phi-2 cuenta con 2.7 mil millones de parámetros en su modelo, lo cual es un gran salto desde Phi-1.5, que tenía 1.3 mil millones de parámetros.

A pesar de su compacidad, Phi-2 demostró un “rendimiento de vanguardia” entre los modelos de lenguaje con menos de 13 mil millones de parámetros, e incluso superó a modelos hasta 25 veces más grandes en pruebas complejas, según Microsoft.

Phi-2 superó a modelos, incluyendo Llama-2 de Meta, Mistral e incluso Gemini Nano 2 de Google, que es la versión más pequeña del LLM más capaz de Google, Gemini, en diferentes pruebas, como se muestra a continuación.

Los resultados de rendimiento de Phi-2 son congruentes con el objetivo de Microsoft de desarrollar un SLM con capacidades emergentes y un rendimiento comparable a modelos en una escala mucho más grande.

“La pregunta que queda es si estas habilidades emergentes se pueden lograr en una escala más pequeña utilizando elecciones estratégicas para el entrenamiento, por ejemplo, selección de datos”, dijo Microsoft.

“Nuestra línea de trabajo con los modelos Phi tiene como objetivo responder a esta pregunta mediante el entrenamiento de SLMs que logren un rendimiento similar a modelos de escala mucho más grande (aunque aún lejos de los modelos de vanguardia)”.

Cuando entrenaron a Phi-2, Microsoft fue muy selectivo con los datos utilizados. La compañía primero utilizó lo que llama datos de calidad de libro de texto. Luego, Microsoft agregó datos de la web cuidadosamente seleccionados, filtrados por su valor educativo y calidad de contenido.

Entonces, ¿por qué se enfoca Microsoft en los SLM?

Los SLM son una alternativa rentable a los LLM. Además, los modelos más pequeños también son útiles cuando se utilizan para una tarea que no requiere suficiente potencia como para necesitar un LLM.

Además, la potencia computacional requerida para ejecutar SLMs es mucho menor que la de los LLMs. Este requisito reducido significa que los usuarios no necesariamente tienen que invertir en GPUs costosas para satisfacer sus necesidades de procesamiento de datos.