¿Podrías estar ejecutando tareas de IA directamente en tu teléfono inteligente pronto? MediaTek dice que sí

¿IA en tu teléfono inteligente pronto? MediaTek dice que sí

La IA generativa, una de las tecnologías de mayor crecimiento, es utilizada por ChatGPT de OpenAI y Google Bard para chat, y por sistemas de generación de imágenes como Stable Diffusion y DALL-E. Sin embargo, tiene ciertas limitaciones porque estas herramientas requieren el uso de centros de datos basados en la nube con cientos de GPUs para realizar los procesos de cálculo necesarios para cada consulta.

Pero algún día podrías ejecutar tareas de IA generativa directamente en tu dispositivo móvil. O en tu automóvil conectado. O en tu sala de estar, dormitorio y cocina en altavoces inteligentes como Amazon Echo, Google Home o Apple HomePod.

También: Tu próximo teléfono podrá ejecutar herramientas de IA generativa (incluso en modo avión)

MediaTek cree que este futuro está más cerca de lo que pensamos. Hoy, la empresa taiwanesa de semiconductores anunció que está trabajando con Meta para portar el Lllama 2 LLM del gigante de las redes sociales, en combinación con los últimos APUs de la compañía y la plataforma de desarrollo de software NeuroPilot, para ejecutar tareas de IA generativa en dispositivos sin depender de procesamiento externo.

Por supuesto, hay un inconveniente: esto no eliminará por completo el centro de datos. Debido al tamaño de los conjuntos de datos LLM (la cantidad de parámetros que contienen) y al rendimiento requerido del sistema de almacenamiento, aún se necesita un centro de datos, aunque mucho más pequeño.

Por ejemplo, el conjunto de datos “pequeño” de Llama 2 consta de 7 mil millones de parámetros, o alrededor de 13 GB, lo cual es adecuado para algunas funciones rudimentarias de IA generativa. Sin embargo, una versión mucho más grande de 72 mil millones de parámetros requiere mucho más almacenamiento proporcionalmente, incluso utilizando compresión de datos avanzada, lo cual está fuera de las capacidades prácticas de los teléfonos inteligentes actuales. En los próximos años, los LLM en desarrollo serán fácilmente 10 a 100 veces más grandes que Llama 2 o GPT-4, con requisitos de almacenamiento en cientos de gigabytes y más.

Es difícil para un teléfono inteligente almacenar y tener suficiente IOPS para el rendimiento de la base de datos, pero ciertamente no para dispositivos de caché especialmente diseñados con almacenamiento flash rápido y terabytes de RAM. Entonces, para Llama 2, hoy es posible alojar un dispositivo optimizado para servir a dispositivos móviles en una unidad de bastidor sin toda la computación pesada. ¡No es un teléfono, pero es bastante impresionante de todos modos!

También: Los mejores chatbots de IA de 2023: ChatGPT y alternativas

MediaTek espera que las aplicaciones de IA basadas en Llama 2 estén disponibles para teléfonos inteligentes alimentados por su SoC insignia de próxima generación, programado para llegar al mercado a finales de año.

Para que la IA generativa en el dispositivo acceda a estos conjuntos de datos, los operadores móviles tendrían que depender de redes de borde de baja latencia: pequeños centros de datos/armarios de equipos con conexiones rápidas a las torres 5G. Estos centros de datos residirían directamente en la red del operador, por lo que los LLM que se ejecutan en los teléfonos inteligentes no necesitarían pasar por muchas “saltos” de red antes de acceder a los datos de los parámetros.

Además de ejecutar cargas de trabajo de IA en el dispositivo utilizando procesadores especializados como los de MediaTek, los LLM específicos de dominio pueden acercarse a la carga de trabajo de la aplicación ejecutándose de manera híbrida con estos dispositivos de caché dentro del mini centro de datos, en un escenario de “borde de dispositivo limitado”.

También: Estas son mis 5 herramientas de IA favoritas para el trabajo

Entonces, ¿cuáles son los beneficios de utilizar IA generativa en el dispositivo?

  • Latencia reducida: debido a que los datos se procesan en el dispositivo mismo, el tiempo de respuesta se reduce significativamente, especialmente si se utilizan metodologías de caché localizada para las partes del conjunto de datos de parámetros que se acceden con frecuencia.
  • Mejora de la privacidad de los datos: al mantener los datos en el dispositivo, esos datos (como una conversación de chat o un entrenamiento enviado por el usuario) no se transmiten a través del centro de datos; solo se transmite los datos del modelo.
  • Mejora de la eficiencia del ancho de banda: en la actualidad, las tareas de IA generativa requieren que todos los datos de la conversación del usuario se envíen de ida y vuelta al centro de datos. Con el procesamiento localizado, una gran cantidad de esto ocurre en el dispositivo.
  • Aumento de la resiliencia operativa: con la generación en el dispositivo, el sistema puede seguir funcionando incluso si la red se interrumpe, especialmente si el dispositivo tiene una caché de parámetros lo suficientemente grande.
  • Eficiencia energética: no requiere tantos recursos de computación intensiva en el centro de datos, ni tanta energía para transmitir esos datos desde el dispositivo hasta el centro de datos.

Sin embargo, lograr estos beneficios puede implicar dividir las cargas de trabajo y utilizar otras técnicas de equilibrio de carga para aliviar los costos de cómputo centralizados en los centros de datos y la sobrecarga de la red.

Además de la necesidad continua de un centro de datos de borde conectado rápidamente (aunque con requisitos computacionales y energéticos considerablemente reducidos), hay otro problema: ¿Qué tan potente puede ser realmente un LLM en el hardware actual? Y aunque hay menos preocupación por los datos en el dispositivo que sean interceptados a través de una red, existe el riesgo adicional de seguridad de que los datos sensibles sean penetrados en el dispositivo local si no se gestionan adecuadamente, así como el desafío de actualizar los datos del modelo y mantener la consistencia de los datos en un gran número de dispositivos de almacenamiento en caché de borde distribuidos.

También: Cómo la conexión de borde a nube impulsa la próxima etapa de la transformación digital

Y finalmente, está el costo: ¿Quién pagará la factura de todos estos mini centros de datos de borde? Actualmente, las redes de borde son utilizadas por los proveedores de servicios de borde (como Equinix), que son necesarios para servicios como Netflix y iTunes de Apple, tradicionalmente no por operadores de redes móviles como AT&T, T-Mobile o Verizon. Los proveedores de servicios de IA generativa como OpenAI/Microsoft, Google y Meta tendrían que llegar a acuerdos similares.

Hay muchas consideraciones con respecto a la IA generativa en el dispositivo, pero está claro que las empresas de tecnología están pensando en ello. Dentro de cinco años, su asistente inteligente en el dispositivo podría estar pensando por sí mismo. ¿Listo para la IA en tu bolsillo? Está llegando, y mucho antes de lo que la mayoría de la gente esperaba.