¿Hackeando la IA? Aquí hay 4 ataques comunes a la IA, según el equipo de seguridad de Google

4 ataques comunes a la IA según Google

Cada vez que una nueva tecnología se vuelve popular, se puede esperar que haya alguien intentando hackearla. La inteligencia artificial, específicamente la inteligencia artificial generativa, no es diferente. Para enfrentar ese desafío, Google creó un “equipo rojo” hace aproximadamente un año y medio para explorar cómo los hackers podrían atacar específicamente a los sistemas de IA.

“No hay una gran cantidad de inteligencia de amenazas disponible para adversarios del mundo real que apunten a sistemas de aprendizaje automático”, dijo Daniel Fabian, el jefe de los Equipos Rojos de Google, en una entrevista con The Register. Su equipo ya ha señalado las mayores vulnerabilidades en los sistemas de IA actuales.

También: Cómo los investigadores rompieron ChatGPT y qué podría significar para el desarrollo futuro de la IA

Algunas de las mayores amenazas para los sistemas de aprendizaje automático (ML), explica el líder del equipo rojo de Google, son los ataques adversarios, el envenenamiento de datos, la inyección de comandos y los ataques de puerta trasera. Estos sistemas de ML incluyen aquellos construidos sobre modelos de lenguaje grandes, como ChatGPT, Google Bard y Bing AI.

Estos ataques comúnmente se conocen como “tácticas, técnicas y procedimientos” (TTP).

“Queremos personas que piensen como un adversario”, dijo Fabian a The Register. “En el espacio de ML, estamos tratando más de anticipar hacia dónde irán los adversarios del mundo real”.

También: La IA ahora puede descifrar tu contraseña escuchando los clics de tu teclado

El equipo rojo de IA de Google recientemente publicó un informe en el que describen los TTP más comunes utilizados por los atacantes contra los sistemas de IA.

Ataques adversarios a los sistemas de IA

Los ataques adversarios incluyen escribir entradas diseñadas específicamente para engañar a un modelo de ML. Esto resulta en una salida incorrecta o una salida que no se daría en otras circunstancias, incluidos resultados que el modelo podría estar específicamente entrenado para evitar.

También: ChatGPT responde incorrectamente a más de la mitad de las preguntas de ingeniería de software

“El impacto de que un atacante genere ejemplos adversarios con éxito puede variar desde insignificante hasta crítico, y depende enteramente del caso de uso del clasificador de IA”, señaló el informe del Equipo Rojo de IA de Google.

Envenenamiento de datos en IA

Otra forma común en que los adversarios podrían atacar los sistemas de ML es a través del envenenamiento de datos, que implica manipular los datos de entrenamiento del modelo para corromper su proceso de aprendizaje, explicó Fabian.

“El envenenamiento de datos se ha vuelto cada vez más interesante”, dijo Fabian a The Register. “Cualquiera puede publicar cosas en Internet, incluidos los atacantes, y pueden poner sus datos envenenados allí. Por lo tanto, nosotros como defensores necesitamos encontrar formas de identificar qué datos han sido potencialmente envenenados de alguna manera”.

También: Zoom está involucrado en un problema de privacidad de IA

Estos ataques de envenenamiento de datos incluyen insertar intencionalmente datos incorrectos, engañosos o manipulados en el conjunto de datos de entrenamiento del modelo para sesgar su comportamiento y sus resultados. Un ejemplo de esto sería agregar etiquetas incorrectas a las imágenes en un conjunto de datos de reconocimiento facial para manipular el sistema y hacer que identifique erróneamente los rostros.

Una forma de prevenir el envenenamiento de datos en los sistemas de IA es asegurar la cadena de suministro de datos, según el informe del Equipo Rojo de IA de Google.

Ataques de inyección de comandos

Los ataques de inyección de comandos en un sistema de IA implican que un usuario inserte contenido adicional en un comando de texto para manipular la salida del modelo. En estos ataques, la salida puede resultar en respuestas inesperadas, sesgadas, incorrectas y ofensivas, incluso cuando el modelo está específicamente programado en contra de ellas.

También: No estamos listos para el impacto de la IA generativa en las elecciones

Dado que la mayoría de las empresas de IA se esfuerzan por crear modelos que brinden información precisa e imparcial, proteger el modelo de usuarios con intenciones maliciosas es clave. Esto podría incluir restricciones sobre lo que se puede ingresar en el modelo y un monitoreo exhaustivo de lo que los usuarios pueden enviar.

Ataques de puerta trasera en modelos de IA

Los ataques de puerta trasera son una de las agresiones más peligrosas contra los sistemas de IA, ya que pueden pasar desapercibidos durante mucho tiempo. Estos ataques podrían permitir que un hacker oculte código en el modelo y sabotee la salida del modelo, pero también robar datos.

“Por un lado, los ataques son muy específicos de ML y requieren mucha experiencia en temas de aprendizaje automático para poder modificar los pesos del modelo y añadir una puerta trasera o ajustar finamente el modelo para integrar una puerta trasera”, explicó Fabian.

También: Cómo bloquear el nuevo rastreador web de entrenamiento de IA de OpenAI para que no consuma tus datos

Estos ataques se pueden lograr instalando y explotando una puerta trasera, un punto de entrada oculto que evita la autenticación tradicional, para manipular el modelo.

“Por otro lado, los mecanismos de defensa contra estos ataques son prácticas de seguridad clásicas, como tener controles contra insiders maliciosos y restringir el acceso”, añadió Fabian.

Los atacantes también pueden dirigirse a los sistemas de IA mediante la extracción y filtración de datos de entrenamiento.

Equipo Rojo de IA de Google

El nombre de equipo rojo, explicó Fabian en una reciente publicación de blog, se originó en “el ámbito militar y describía actividades donde un equipo designado jugaría un papel adversarial (el ‘equipo rojo’) contra el equipo ‘local'”.

“Los equipos rojos tradicionales son un buen punto de partida, pero los ataques a los sistemas de IA se vuelven rápidamente complejos y se beneficiarán de la experiencia en IA”, agregó Fabian.

También: ¿Te viste afectado por la última brecha de datos? Así es cómo puedes averiguarlo

Los atacantes también deben contar con las mismas habilidades y experiencia en IA, pero Fabian considera que el equipo rojo de IA de Google está por delante de estos adversarios gracias al conocimiento en IA que ya poseen.

Fabian se mantiene optimista de que el trabajo que su equipo está realizando favorecerá a los defensores sobre los atacantes.

“En un futuro cercano, los sistemas y modelos de ML facilitarán mucho la identificación de vulnerabilidades de seguridad”, dijo Fabian. “A largo plazo, esto favorece absolutamente a los defensores porque podemos integrar estos modelos en nuestros ciclos de vida de desarrollo de software y asegurarnos de que el software que lanzamos no tenga vulnerabilidades en primer lugar”.