Cómo la realidad virtual (VR) y la realidad aumentada (AR) de Meta podrían transformarse a través de la inteligencia artificial (IA)

Cómo la VR y AR de Meta se transformarían con IA

A medida que todos en la industria tecnológica anuncian la IA en todo y Apple prepara sus primeros auriculares de realidad virtual/aumentada para el próximo año, las últimas noticias de Meta en la conferencia Connect, enfocada en los desarrolladores, abarcan ambos aspectos a la vez. En cierto sentido, los productos anunciados son directos: un nuevo Quest 3 con gráficos mejorados y unas gafas Ray-Ban mejoradas con cámara y audio que llegarán más adelante este mes. Meta también anunció una serie de chatbots impulsados por personalidad y una herramienta de creación de imágenes y stickers llamada Emu, basada en IA generativa.

He estado siguiendo los movimientos de Meta en VR y AR desde antes de que Oculus fuera adquirido por Facebook, e incluso visité los laboratorios de investigación de Meta el año pasado en busca de señales sobre hacia dónde se dirige el futuro. Pero al final de 2023, más que nunca parece que los productos que hemos llegado a reconocer como “VR” y “gafas inteligentes” están transformándose. El Quest 3 tiene funciones de realidad mixta similares al Apple Vision Pro, dando la sensación en ocasiones de ser unas gafas de AR en forma de VR. Las gafas, el próximo año, comenzarán a tener IA incorporada que reconocerá objetos y traducirá texto, actuando casi como versiones sin pantalla de Google Glass o algún tipo de prototipo temprano de gafas de AR. Ambos también deberían ser capaces de ejecutar formas de IA conversacional de Google, y posiblemente mucho más, gracias a la última generación de chips más potentes de Qualcomm.

Mira esto:

Para tener una mejor idea de cómo Meta combinará VR, AR e IA, hablé con el CTO de Meta y responsable de producto, Andrew Bosworth, para preguntarle sobre el futuro. ¿Qué hay del dispositivo esperado de Samsung? ¿Dónde está el seguimiento ocular, que estaba en Quest Pro pero es una característica que falta en Quest 3? ¿Y qué pasa con Beat Saber en realidad mixta?

La siguiente conversación ha sido editada ligeramente para mayor claridad y brevedad.

¿Cómo ves la relación entre el Quest 3 de Meta, las gafas inteligentes y la IA? Bosworth: Si hicieras un diagrama de cajas y flechas de la arquitectura que hemos estado imaginando desde hace mucho tiempo para la AR, una de las cajas sería la IA… (risas) Es tan raro en esta industria que una tecnología llegue y resuelva tu problema sin que la persigas activamente. Pero eso es más o menos lo que ha ocurrido [con la IA].

Si me hubieras preguntado a mí y a [Michael Abrash, científico jefe de Meta Reality Labs], hace dos años, incluso tal vez el año pasado, cuál era el mayor riesgo para que la AR funcionara… por mucho que sean difíciles las pantallas y el renderizado, el mayor riesgo habría sido la IA. Las expectativas que tenemos como seres humanos de contar con una interfaz que pueda ver lo que vemos, escuchar lo que oímos, tener sentido común, son altas. Y nuestra capacidad para proporcionar sentido común es baja. Ese es el problema.

Estamos muy contentos con [esta nueva IA de Meta]; realmente resolvió el problema para nosotros. Era algo que pensábamos que tendríamos más tiempo para resolver. La IA siempre ha sido una parte fundamental de nuestra visión. Solo que ahora realmente podemos ponerla en práctica.

Desde hace tiempo, Meta ha prometido gafas inteligentes asistentes con IA que pueden ver lo que ves. ¿Cómo se están dando estos pasos en los Ray-Ban del próximo año? Bosworth: En este momento, las gafas, desde el punto de vista de la potencia, tienes que activarlas. Con el tiempo, llegar al punto en el que tengamos sensores suficientemente eficientes en energía como para detectar un evento que active una conciencia que a su vez active la IA, ese es realmente el sueño hacia el que estamos trabajando. Y estamos trabajando en esos sensores, estamos trabajando en esa detección de eventos. Simplemente no teníamos una gran solución para lo que anteriormente llamábamos “el director de orquesta”, que es la cosa que decide… ¿es este un buen momento? Tú y yo estamos hablando cara a cara, así que probablemente deberíamos eliminar las interfaces [en un par de futuras gafas de AR]. Si mi esposa me manda un mensaje de texto sobre las compras, mantén eso fuera. Pero si me mandas un mensaje de texto diciendo que los niños están enfermos y necesitan mi ayuda de inmediato, hazlo aparecer. ¿Cómo se hace eso?

Hemos aprendido mucho al pasar de la generación 1 a la generación 2, al llegar a estas gafas Meta de Ray-Ban. Vemos avances en dos frentes: en el hardware, donde estamos mejorando de forma iterativa tanto la calidad como el coste. Y estamos resolviendo uno de los problemas críticos de software que teníamos con la IA.

Los chatbots de IA de Meta, con personalidades y caras de celebridades, aparecerán en aplicaciones de Facebook y en VR en Quest 3, pero todavía no en las gafas inteligentes.

Scott Stein/CNET

¿Estas gafas de IA también tendrán personalidades o simplemente serán un asistente general? Bosworth: La IA de Meta es más un modelo de agente. Así que creo que el futuro de la IA probablemente será una combinación de agentes -esas entidades externas a las que acudes, tienen su propia atmósfera, vas a ellas y te relacionas con ellas- frente a lo que yo llamaría un asistente personal.

Las gafas de realidad aumentada van a ver todo lo que veo; van a ver cada mensaje privado que envío. Van a ver cada sitio web que visito. Y quiero que hagan eso porque eso les ayudará a ayudarme, y eso será genial. Necesitan ser privadas. Como, realmente privadas. Sabes, como, realmente discretas.

¿También podrían, a través de complementos, programar citas para mí? Por supuesto. ¿Pueden también responder mensajes por mí? Por supuesto, puedo confiar en ellas. Pero necesitan ser mías. Mi agente privado, personal. Y eso no es el asistente de IA de Meta. Meta AI es tu agente de propósito general. Un agente con el que puedo hablar, ya sabes, cosas generales. Eso es con lo que vamos a empezar aquí. Lo que creo que finalmente poblará la realidad aumentada es una versión muy personal de eso. Que tenga, esperemos, una memoria extendida, tenga la capacidad de aprender y conocerte… y una increíble discreción.

El Quest 3 parece ser un primer paso hacia el futuro en la realidad mixta. Pero hay mucho que podría evolucionar, como los aumentos, esas cosas de widgets [que anunciaste]. ¿Cómo ves lo que será el Quest 3? Bosworth: La gente olvida que cuando salió [Oculus] Rift, nadie sabía cómo hacer locomoción en realidad virtual. Nadie sabía cómo hacer estas cosas básicas. Un juego descubría una gran mecánica. Y luego todos los juegos decían, ‘imita eso’. Los consumidores aprendían esa mecánica. Y ahora la conocen, y ya no es difícil.

Tenemos muchas ideas de por qué creemos que [la realidad mixta] es genial. Estamos haciendo muchas cosas. No creo que conozcamos ni la mitad. Los desarrolladores van a descubrir cosas nuevas y emocionantes. Hay partes de la realidad mixta que creo que están más desarrolladas. Tenemos un juego de invasión alienígena, First Encounters, donde los alienígenas atraviesan las paredes. Entendemos esto en el contexto de los juegos clásicos. Hay partes de la realidad mixta que son versiones geniales de cosas que entendemos bien. Eso es valor, desde el primer día. Luego están los aumentos: Vamos a descubrirlo.

Una de las razones por las que es tan importante para nosotros comenzar ese trabajo ahora es que finalmente se convierte en el ecosistema de realidad aumentada a lo largo del tiempo. Es un largo camino desde aquí hasta allá, pero no se puede empezar lo suficientemente pronto.

Pronto habrá muchos juegos listos para el Quest 3, pero no Beat Saber todavía.

Scott Stein/CNET

¿Por qué aún no hay Beat Saber para la realidad mixta [en el Quest 3]? Porque parece ser la aplicación perfecta. Lo mismo con Supernatural, tu aplicación de fitness. Bosworth: Hicimos una versión interna de Beat Saber en realidad mixta. Fue más difícil de hacer de lo que piensas. Cuando esos cubos están lejos de ti, cuando tienes un fondo negro muy oscuro, los puedes ver, y tu cerebro realmente cuenta con eso más de lo que te das cuenta. Cuando tienes un entorno ocupado y bien iluminado, puede ser muy difícil verlo. Mi punto es que es uno de esos juegos en los que piensas, oh, esto es arrastrar y soltar… y luego lo haces, y te das cuenta de que hay mucha más sutileza y matices de lo que nos dimos cuenta. Así que sigues trabajando en ello. Nuevamente, la razón por la que es tan importante poner esto en manos de los desarrolladores pronto es para que puedan comenzar a hacer ese trabajo.

¿Sientes que estás más cerca de que la gente no necesite los controladores todo el tiempo? ¿Sientes que este [Quest 3] hardware podría ver más de esa realización? Bosworth: Seguimos pensando que es una posibilidad, especialmente cuando se pasa tanto tiempo en entornos sociales. Más de la mitad del tiempo [en realidad virtual] se pasa en entornos sociales: parte de eso son juegos sociales que usan controladores, pero no todos. No se trata de ‘¿funciona?’ — obviamente, puede funcionar. Pero ciertamente hay mucho contenido hoy en día al que las personas quieren acceder y que requiere controladores.

Si en algún momento dices, oye, ¿hay suficiente que se pueda hacer solo con las manos para tener un producto totalmente viable, en lugar de hacer que alguien regrese a la tienda para comprar los controladores que desean… constantemente estamos observando eso como una forma de poner los dispositivos en manos de las personas de una manera útil y a un precio más bajo.

El Meta Quest 3 tiene mejoras, pero no tiene seguimiento ocular incorporado.

John Kim/CNET

Quiero preguntarte tu opinión sobre el seguimiento ocular porque está en el Quest Pro y también en el Vision Pro y el PlayStation VR 2 [pero no en el Quest 3]. ¿Qué opinas, en cuanto a la interfaz, sobre dónde se encuentra la plataforma Quest en este momento? Bosworth: Probablemente seguiré usando mi Quest Pro para mis reuniones porque me encanta el seguimiento ocular y el seguimiento facial. Hemos estado jugando con el seguimiento ocular, la mirada más las manos, como una interfaz de entrada de usuario durante años. El seguimiento ocular simplemente agrega mucho costo y complejidad al hardware. Estamos hablando de al menos dos cámaras por ojo para hacerlo bien, sin mencionar la iluminación en el campo. Apple Vision Pro, que es un dispositivo hermoso, ha hecho iluminación en el campo, por lo que la iluminación atraviesa la lente. Si lo estás haciendo a través de la lente, no puedes usar gafas. De ahí la necesidad de inserciones ópticas recetadas.

Con el tiempo, el seguimiento ocular eventualmente formará parte de la plataforma central; creo que es una gran herramienta. Para nosotros, siempre es cuestión del costo-beneficio. ¿Cuál es el compromiso? ¿Para el consumidor promedio al que estamos tratando de llegar, le parecerá que vale la pena añadir este peso adicional, costo, impacto térmico y de batería por el beneficio que se obtiene?

Hay mucho enfoque en la apertura y la compatibilidad: asociaciones con Microsoft, Office 365 y juegos en la nube. ¿Ves más oportunidades para que se integren con algunos de los dispositivos que están saliendo? Entre Apple y lo que sea que Samsung está desarrollando con Google, idealmente habrá formas en que interactúen. Bosworth: Hemos estado aquí durante 10 años en Connect, haciendo este trabajo, dándolo a conocer. Se han vendido decenas de millones de unidades. ¿Cuántos millones y millones de dólares se han pagado a desarrolladores, se han construido negocios en la plataforma? Todos los demás no tienen millones.

No estoy diciendo que sea imposible. Ciertamente queremos utilizar muchos estándares abiertos. Open XR, Vulcan, glTF. Hemos estado trabajando en el juego de estándares durante mucho tiempo y tratando de hacer esta cosa de manera abierta y fácil. Ejecutamos un sistema operativo basado en Android. Sería trivial para Google o alguien más llevar una tienda de aplicaciones de aplicaciones 2D a la plataforma. Ni siquiera sería difícil. Estaríamos encantados de tenerlos. Espero que la gente apoye el ecosistema. Solo tienen que levantar el teléfono y llamarnos.

Las gafas de Meta pueden tomar fotos y video, pero no video espacial. Algún día podrían hacerlo.

Meta

¿Podrían las gafas Ray-Ban grabar video espacial? Bosworth: La primera versión de Ray-Ban Stories tenía una cámara en cada patilla y eran capaces de capturar en estéreo desde el punto de vista del hardware. Nunca desarrollamos el software. No fue muy popular entre los consumidores. Hicimos pruebas con usuarios y la imagen estereoscópica, incluso en Facebook e Instagram, donde se puede hacer una reproducción estereoscópica interesante y también en el visor. La gente simplemente no pasaba mucho tiempo mirando fotos estereoscópicas. Así que terminamos por no desarrollarlo para ahorrar energía extra al no alimentar la segunda cámara, hacer que dure más tiempo y hacer que la captura sea más pequeña. Reemplazamos la segunda cámara con un LED [en los nuevos modelos].

Tengo varias cámaras de realidad virtual. Pasé todo un año grabando, cada semana, un sábado de ciencia con mi hijo en realidad virtual y lo publiqué en línea. Realmente tengo entusiasmo por ello como creador. No puedo esperar para comenzar; obviamente, las piezas no están en su lugar hoy en día. Pero creo que es importante maximizar estas gafas por lo que son, entendiendo que las personas que las usan [estas gafas] no necesariamente están tratando de ser creadores de realidad virtual. Las personas que están tratando de ser creadores de realidad virtual probablemente tienen mejores herramientas para el trabajo.

Hablando con Hugo Swart de Qualcomm sobre el chip en el Quest 3 y las gafas Ray-Ban, parece que hay más ancho de banda para sensores para emparejar con cosas. Tal vez relojes. Mencionó sensores portátiles. ¿Qué ves tú? Bosworth: Tenemos grandes ambiciones de estar en ese espacio. Obviamente, hemos sido transparentes con nuestros avances en interfaces neuronales. Actualmente, estamos enfocados en la muñeca. Y creo que esas cosas tienen que estar en otro lugar. Así que hay oportunidad ahí. Realmente, como casi todos nuestros auriculares, estos dispositivos tienen limitaciones térmicas. No estamos limitados por los chips, el ancho de banda, las entradas/salidas de entrada, el número de canales, el número de tuberías, eso no es lo que más limita. Es realmente importante: no podrías tener la cantidad de sensores que tenemos sin el chip XR. Pero una vez que cruzaste ese Rubicón, estás limitado en la capacidad cruda de generar energía térmica en la cara. Esa es la barrera principal que tenemos.