Google lanza Gemini 1.5 Pro mejorando los modelos de IA genética con ventanas de contexto más grandes.

La última incorporación de Google a la familia GenAI de Gemini, Gemini 1.5 Pro, cuenta con una amplia ventana contextual, pero actualmente solo está disponible en vista previa privada.

El nuevo modelo Gemini de Google puede analizar videos de una hora, pero solo algunas personas tienen acceso a él.

En octubre pasado, el científico de datos de Google, Matei Zaharia, el CTO de Databricks y el profesor de UC Berkeley Pieter Abbeel publicaron un artículo de investigación que propuso un método para habilitar modelos GenAI, como el GPT-4 y ChatGPT de OpenAI, para procesar significativamente más datos. El estudio demostró que al abordar un cuello de botella de memoria, los modelos ahora pueden procesar millones de palabras, en comparación con solo cientos de miles.

Bueno, parece que la investigación en IA avanza a toda velocidad porque Google acaba de anunciar el lanzamiento de Gemini 1.5 Pro, la última adición a su familia Gemini de modelos GenAI. Este nuevo modelo ofrece varias mejoras respecto a su predecesor, Gemini 1.0 Pro, con un avance particularmente significativo: su capacidad para manejar una gran cantidad de datos.

Gemini 1.5 Pro puede procesar aproximadamente 700.000 palabras o alrededor de 30.000 líneas de código. Esto es impresionante, 35 veces más de lo que Gemini 1.0 Pro podía manejar. Y la mejor parte es que Gemini 1.5 Pro no se limita solo al texto. También puede procesar hasta 11 horas de audio o una hora de video en múltiples idiomas.

🌟 Gemini 1.5 Pro – La Maravilla Multimodal 🌟

Para aclarar, los números mencionados representan los límites máximos de las capacidades de Gemini 1.5 Pro. La versión disponible para desarrolladores y clientes en la fase de vista previa limitada actualmente solo puede procesar alrededor de 100.000 palabras a la vez. Este modelo de “entrada de datos grandes” experimental actualmente solo está accesible para los desarrolladores aprobados como parte de una vista previa privada. Sin embargo, algunos clientes que utilizan la plataforma Vertex AI de Google también tienen acceso a esta versión.

Oriol Vinyals, VP de investigación de Google DeepMind, mostró entusiasmo por este logro, destacando cómo las interacciones más largas y complejas con modelos GenAI requieren una ventana de contexto más extensa. En términos más simples, cuanto más información introduzcas y recibas del modelo, más contexto necesita comprender y responder de manera efectiva. Gemini 1.5 Pro ha desbloqueado este largo contexto de manera masiva.

Gran Contexto, Gran Potencial

La introducción de una ventana de contexto amplia en los modelos tiene implicaciones significativas. Los modelos con ventanas de contexto pequeñas tienden a olvidar rápidamente las conversaciones recientes, lo que a menudo conduce a respuestas fuera de tema o problemáticas. Por otro lado, los modelos con contextos grandes pueden comprender mejor el flujo narrativo, lo que resulta en salidas más contextualmente ricas y relevantes.

Aunque ha habido intentos y experimentos anteriores con modelos que tienen ventanas de contexto inusualmente grandes, Google es el primero en ofrecer comercialmente un modelo con tales capacidades. Anteriormente, Anthropic ostentaba el récord con una ventana de contexto de 200.000 tokens, pero Google supera eso con Gemini 1.5 Pro.

🌙 1 Millón de Tokens – ¿Qué Puedes Lograr? 🌙

El tamaño máximo de la ventana de contexto de Gemini 1.5 Pro es impresionante, 1 millón de tokens. Aunque la versión ampliamente disponible tiene una ventana de contexto de 128.000 tokens, que es la misma que la del GPT-4 Turbo de OpenAI. Esta ventana de contexto ampliada abre un mundo de posibilidades. Ahora puedes analizar bibliotecas de código completas, razonar en documentos extensos como contratos, participar en conversaciones largas con chatbots e incluso analizar y comparar contenido de video.

En una reciente presentación, Google mostró dos demostraciones pregrabadas en las que se utilizó a Gemini 1.5 Pro con la ventana de contexto de 1 millón de tokens habilitada. En la primera demostración, se buscó en el transcripción de la transmisión televisiva del alunizaje del Apolo 11, que abarca aproximadamente 402 páginas, citas que contenían chistes. Luego, se le pidió al modelo que encontrara una escena en la transmisión televisiva que se asemejara a un boceto a lápiz. En la segunda demostración, se le pidió al modelo que identificara escenas en la película “Sherlock Jr.” de Buster Keaton basándose en descripciones y bocetos.

Gemini 1.5 Pro completó con éxito ambas tareas, aunque el tiempo de procesamiento fue más largo en comparación con las consultas promedio realizadas con ChatGPT. Cada tarea tardó entre 20 segundos y un minuto en procesarse. Oriol Vinyals aseguró que la latencia mejorará a medida que el modelo se someta a una mayor optimización. De hecho, ya se están realizando pruebas para una versión de Gemini 1.5 Pro con una ventana de contexto de 10 millones de tokens impactantes.

💡 Preocupaciones y Consideraciones 💡

Aunque las capacidades de Gemini 1.5 Pro son impresionantes, existen preocupaciones con respecto a su latencia. Esperar varios minutos para buscar contenido de video puede no ser la experiencia más agradable o escalable. Además, el impacto de la latencia en las conversaciones con chatbots y el análisis de bases de código plantea preguntas válidas. Durante la presentación, Vinyals reconoció que estos problemas están presentes durante las etapas experimentales e de investigación de cualquier modelo. La mejora en esta área es sin duda crucial.

Es fundamental considerar los casos de uso específicos donde los beneficios de la ventana de contexto amplia de Gemini 1.5 Pro superan las desventajas. Para tareas como analizar los puntos clave de la trama de un programa, la latencia puede no estar justificada. Sin embargo, cuando se trata de encontrar una captura de pantalla específica de una escena de una película vagamente recordada, el ahorro de tiempo puede hacer que la espera valga la pena.

Otras Mejoras Notables

Gemini 1.5 Pro ofrece más que una simple ventana de contexto ampliada. Google afirma que, en términos de calidad, el modelo es “comparable” a su modelo de buque insignia GenAI, Gemini Ultra. Esto es posible gracias a una nueva arquitectura que comprende modelos más pequeños y especializados llamados “expertos”. Gemini 1.5 Pro descompone las tareas en subtareas y las delega a los modelos expertos apropiados en función de las predicciones.

Aunque este concepto, conocido como Mezcla de Expertos (MoE), ha existido por algún tiempo, su eficiencia y flexibilidad lo han hecho cada vez más popular. Este enfoque permite una mejor asignación de recursos y una mejora en la calidad general de las salidas del modelo.

🎟️ Precios y Desarrollos Futuros 🎟️

Una pregunta importante sobre Gemini 1.5 Pro es el precio. Durante la fase de vista previa privada, la versión con una ventana de contexto de un millón de tokens será gratuita. Sin embargo, Google planea introducir niveles de precios en el futuro cercano, comenzando desde la ventana de contexto estándar de 128,000 tokens y aumentando hasta 1 millón de tokens. Aunque no se revelaron detalles de precios específicos durante la presentación, se espera que la ventana de contexto más grande tenga un costo más alto. Esperemos que Google aborde esta preocupación y proporcione opciones de precios asequibles.

Otro aspecto que vale la pena considerar son las implicaciones para otros modelos dentro de la familia Gemini, especialmente Gemini Ultra. ¿Recibirán los modelos Ultra actualizaciones que se alineen con las mejoras de rendimiento de los modelos Pro? Actualmente, parece haber un período incómodo donde los modelos Pro disponibles superan a los modelos Ultra, que Google comercializa como los mejores de su clase. Se agradecería una aclaración sobre este tema.

⭐ El Futuro de los Modelos GenAI ⭐

La presentación de Gemini 1.5 Pro por parte de Google muestra la evolución y el avance continuo de los modelos GenAI. A medida que los modelos con ventanas de contexto más grandes se vuelven más prevalentes, podemos esperar aplicaciones y oportunidades aún más emocionantes en diversos campos. La capacidad para procesar grandes cantidades de datos e interactuar en situaciones complejas, sin duda, dará forma al futuro de la IA.

Para explorar más a fondo este tema y mantenerse al día con los últimos avances en el campo de la tecnología informática y la programación, echa un vistazo a estos enlaces valiosos:

  1. Gemini de Google – La Nueva Plataforma de IA Generativa
  2. GPT-4 de OpenAI: La Próxima Gran Novedad
  3. Liberando el Potencial de ChatGPT
  4. El Poder de Vertex AI
  5. Revolucionando los Modelos de Lenguaje – El Enfoque de Magic
  6. Técnicas para Ampliar el Tamaño de la Ventana Contextual del Modelo
  7. Anthropic – Empujando los Límites de la Ventana Contextual del Modelo

¡Ahora es tu turno! ¿Qué opinas de Gemini 1.5 Pro de Google y sus capacidades de ventana de contexto más grande? ¿Cómo crees que este desarrollo influirá en diferentes industrias? Comparte tus ideas y únete a la conversación. ¡No olvides difundir la palabra compartiendo este artículo en tus plataformas de redes sociales favoritas!

✨💻🚀😄