¿Podrías estar ejecutando tareas de IA directamente en tu iPhone pronto? MediaTek dice que sí.
¿Ejecutar tareas de IA en tu iPhone pronto? MediaTek dice que sí.
La IA generativa, una de las tecnologías de mayor crecimiento, es utilizada por ChatGPT de OpenAI y Google Bard para chat y por sistemas de generación de imágenes como Stable Diffusion y DALL-E. Sin embargo, tiene ciertas limitaciones porque estas herramientas requieren el uso de centros de datos basados en la nube con cientos de GPUs para realizar los procesos de cómputo necesarios para cada consulta.
Pero algún día podrías ejecutar tareas de IA generativa directamente en tu dispositivo móvil. O en tu automóvil conectado. O en tu sala de estar, dormitorio y cocina en altavoces inteligentes como Amazon Echo, Google Home o Apple HomePod.
También: Tu próximo teléfono podrá ejecutar herramientas de IA generativa (incluso en Modo Avión)
MediaTek cree que este futuro está más cerca de lo que nos damos cuenta. Hoy, la empresa taiwanesa de semiconductores anunció que está trabajando con Meta para adaptar el Lllama 2 LLM del gigante de las redes sociales, en combinación con las últimas APUs de la compañía y la plataforma de desarrollo de software NeuroPilot, para ejecutar tareas de IA generativa en dispositivos sin depender de un procesamiento externo.
Por supuesto, hay una condición: esto no eliminará por completo el centro de datos. Debido al tamaño de los conjuntos de datos LLM (la cantidad de parámetros que contienen) y al rendimiento requerido del sistema de almacenamiento, aún necesitas un centro de datos, aunque mucho más pequeño.
- Soy un fanático de los teléfonos plegables, pero este compacto Andr...
- Mejores ofertas de Samsung para enero de 2023 | ENBLE
- Google Pixel Watch 2 precio rumoreado, fecha de lanzamiento, notici...
Por ejemplo, el conjunto de datos “pequeño” de Llama 2 tiene 7 mil millones de parámetros, o alrededor de 13 GB, lo cual es adecuado para algunas funciones rudimentarias de IA generativa. Sin embargo, una versión mucho más grande de 72 mil millones de parámetros requiere mucho más almacenamiento proporcionalmente, incluso utilizando compresión avanzada de datos, lo cual está fuera de las capacidades prácticas de los teléfonos inteligentes actuales. En los próximos años, los LLM en desarrollo serán fácilmente de 10 a 100 veces el tamaño de Llama 2 o GPT-4, con requisitos de almacenamiento de cientos de gigabytes o más.
Esto es difícil de almacenar en un teléfono inteligente y tener suficientes IOPS para el rendimiento de la base de datos, pero ciertamente no para dispositivos de caché especialmente diseñados con almacenamiento flash rápido y terabytes de RAM. Entonces, para Llama 2, es posible hoy alojar un dispositivo optimizado para atender dispositivos móviles en una sola unidad de rack sin todo el cómputo pesado. No es un teléfono, ¡pero es bastante impresionante de todos modos!
También: Los mejores chatbots de IA de 2023: ChatGPT y alternativas
MediaTek espera que las aplicaciones de IA basadas en Llama 2 estén disponibles para teléfonos inteligentes alimentados por su SoC insignia de próxima generación, programado para llegar al mercado a finales de año.
Para que la IA generativa en el dispositivo acceda a estos conjuntos de datos, los operadores de telefonía móvil tendrían que depender de redes de borde de baja latencia; pequeños centros de datos/armarios de equipos con conexiones rápidas a las torres 5G. Estos centros de datos residirían directamente en la red del operador, por lo que los LLM que se ejecutan en los teléfonos inteligentes no necesitarían pasar por muchas “paradas” en la red antes de acceder a los datos de los parámetros.
Además de ejecutar cargas de trabajo de IA en dispositivo utilizando procesadores especializados como los de MediaTek, los LLM específicos del dominio se pueden acercar a la carga de trabajo de la aplicación al ejecutarse de manera híbrida con estos dispositivos de caché dentro del mini centro de datos, en un escenario de “borde de dispositivo limitado”.
También: Estas son mis 5 herramientas de IA favoritas para el trabajo
Entonces, ¿cuáles son los beneficios de usar IA generativa en el dispositivo?
- Latencia reducida: Debido a que los datos se procesan en el dispositivo mismo, el tiempo de respuesta se reduce significativamente, especialmente si se utilizan metodologías de caché localizadas para las partes del conjunto de datos de parámetros que se acceden con frecuencia.
- Mejora de la privacidad de los datos: Al mantener los datos en el dispositivo, esos datos (como una conversación de chat o un entrenamiento enviado por el usuario) no se transmiten a través del centro de datos; solo los datos del modelo lo son.
- Mejora de la eficiencia del ancho de banda: Hoy en día, las tareas de IA generativa requieren que todos los datos de la conversación del usuario vayan y vengan al centro de datos. Con el procesamiento local, una gran cantidad de esto ocurre en el dispositivo.
- Aumento de la resiliencia operativa: Con la generación en el dispositivo, el sistema puede seguir funcionando incluso si la red se interrumpe, especialmente si el dispositivo tiene una caché de parámetros lo suficientemente grande.
- Eficiencia energética: No requiere tantos recursos intensivos en cómputo en el centro de datos, ni tanta energía para transmitir esos datos desde el dispositivo hasta el centro de datos.
Sin embargo, lograr estos beneficios puede implicar dividir las cargas de trabajo y utilizar otras técnicas de equilibrio de carga para aliviar los costos de computación centralizados en el centro de datos y la sobrecarga de la red.
Además de la necesidad continua de un centro de datos de borde conectado rápidamente (aunque con requisitos computacionales y energéticos considerablemente reducidos), hay otro problema: ¿Qué tan potente puede ser realmente un LLM en el hardware actual? Y si bien hay menos preocupación por los datos en el dispositivo interceptados a través de una red, existe el riesgo adicional de seguridad de que los datos sensibles sean penetrados en el dispositivo local si no se gestionan adecuadamente, así como el desafío de actualizar los datos del modelo y mantener la consistencia de los datos en un gran número de dispositivos de almacenamiento en caché de borde distribuidos.
También: Cómo la conexión de borde a nube está impulsando la siguiente etapa de la transformación digital
Y finalmente, está el costo: ¿Quién pagará por todos estos mini centros de datos de borde? Actualmente, las redes de borde son utilizadas por proveedores de servicios de borde (como Equinix), que son necesitados por servicios como Netflix y iTunes de Apple, tradicionalmente no por operadores de redes móviles como AT&T, T-Mobile o Verizon. Los proveedores de servicios de IA generativa como OpenAI/Microsoft, Google y Meta tendrían que llegar a acuerdos similares.
Hay muchos aspectos a considerar con respecto a la IA generativa en el dispositivo, pero está claro que las empresas tecnológicas están pensando en ello. Dentro de cinco años, tu asistente inteligente en el dispositivo podría estar pensando por sí mismo. ¿Estás listo para la IA en tu bolsillo? Está llegando, y mucho antes de lo que la mayoría de la gente espera.