¿Qué es Gemini? Todo lo que debes saber sobre el nuevo modelo de inteligencia artificial de Google

¿Qué es Gemini? Todo lo que necesitas saber sobre el nuevo modelo de inteligencia artificial de Google

El sitio web de Google Gemini en una computadora portátil dice, bienvenido a la era de Gemini

¿Qué es Google Gemini?

Gemini es un nuevo y poderoso modelo de inteligencia artificial de Google que no solo puede entender texto, sino también imágenes, videos y audio. Como modelo multimodal, Gemini es descrito como capaz de completar tareas complejas en matemáticas, física y otras áreas, así como entender y generar código de alta calidad en varios lenguajes de programación.

Actualmente está disponible a través de integraciones con Google Bard y el Google Pixel 8 y se incorporará gradualmente a otros servicios de Google.

También: ChatGPT vs Bing Chat vs Google Bard: ¿Cuál es el mejor chatbot de IA?

“Gemini es el resultado de esfuerzos de colaboración a gran escala de equipos de Google, incluidos nuestros colegas de Google Research”, según Dennis Hassabis, CEO y cofundador de Google DeepMind. “Fue construido desde cero para ser multimodal, lo que significa que puede generalizar y comprender, operar y combinar diferentes tipos de información, incluyendo texto, código, audio, imagen y video”.

¿Quién creó Gemini?

Gemini fue creado por Google y Alphabet, la empresa matriz de Google, y lanzado como el modelo de IA más avanzado de la compañía hasta la fecha. Google DeepMind también realizó contribuciones significativas al desarrollo de Gemini.

También: La nueva Búsqueda Profunda de Bing utiliza GPT-4 para obtener resultados de búsqueda más completos

¿Existen diferentes versiones de Gemini?

Google describe a Gemini como un modelo flexible capaz de funcionar en todo, desde los centros de datos de Google hasta dispositivos móviles. Para lograr esta escalabilidad, Gemini se está lanzando en tres tamaños: Gemini Nano, Gemini Pro y Gemini Ultra.

  • Gemini Nano: El tamaño del modelo Gemini Nano está diseñado para funcionar en teléfonos inteligentes, específicamente en el Google Pixel 8. Está construido para realizar tareas en el dispositivo que requieren un procesamiento eficiente de IA sin conexión a servidores externos, como sugerir respuestas dentro de aplicaciones de chat o resumir texto.
  • Gemini Pro: Ejecutándose en los centros de datos de Google, Gemini Pro está diseñado para alimentar la última versión del chatbot de IA de la compañía, Bard. Es capaz de ofrecer tiempos de respuesta rápidos y comprender consultas complejas.
  • Gemini Ultra: Aunque aún no está disponible para uso generalizado, Google describe a Gemini Ultra como su modelo más capaz, superando “los resultados actuales de vanguardia en 30 de los 32 puntos de referencia académicos ampliamente utilizados en la investigación y desarrollo de modelos de lenguaje grandes (LLM)”. Está diseñado para tareas altamente complejas y se lanzará después de finalizar su fase de prueba actual.

¿Cómo puedes acceder a Gemini?

Gemini ahora está disponible en productos de Google en sus tamaños Nano y Pro, como el teléfono Pixel 8 y el chatbot Bard, respectivamente. Google planea integrar Gemini gradualmente en su Búsqueda, Anuncios, Chrome y otros servicios.

También: Pregunté a DALL-E 3 que creara un retrato de cada estado de EE. UU. y los resultados fueron gloriosamente extraños

Los desarrolladores y clientes empresariales podrán acceder a Gemini Pro a través de la API de Gemini en Google’s AI Studio y Google Cloud Vertex AI a partir del 13 de diciembre. Los desarrolladores de Android tendrán acceso a Gemini Nano a través de AICore, que estará disponible en una base de vista previa temprana.

¿En qué se diferencia Gemini de otros modelos de IA, como GPT-4?

El nuevo modelo Gemini de Google parece ser uno de los modelos de IA más grandes y avanzados hasta la fecha, aunque el lanzamiento del modelo Ultra determinará eso con certeza. En comparación con otros modelos populares que alimentan actualmente a los chatbots de IA, Gemini se destaca debido a su característica multimodal nativa, mientras que otros modelos, como GPT-4, dependen de complementos e integraciones para ser verdaderamente multimodales.

También: Google dice que Bard es ahora más inteligente que ChatGPT, gracias a la actualización de Gemini

Un gráfico de comparación de Google muestra cómo Gemini Ultra y Pro se comparan con GPT-4 y Whisper de OpenAI, respectivamente.

En comparación con GPT-4, un modelo principalmente basado en texto, Gemini realiza fácilmente tareas multimodales de forma nativa. Si bien GPT-4 se destaca en tareas relacionadas con el lenguaje, como la creación de contenido y el análisis de texto complejo, recurre a los complementos de OpenAI para realizar análisis de imagen y acceder a la web, y depende de DALL-E 3 y Whisper para generar imágenes y procesar audio.

También: Los mejores chatbots de IA: ChatGPT y otras alternativas destacadas

Gemini de Google también parece estar más enfocado en productos que otros modelos disponibles en la actualidad. Está integrado en el ecosistema de la compañía o tiene planes de hacerlo, ya que alimenta tanto a Bard como a los dispositivos Pixel 8. Otros modelos, como GPT-4 y Llama de Meta, están más orientados al servicio y están disponibles para diversos desarrolladores de terceros para aplicaciones, herramientas y servicios.