Las grandes empresas de tecnología están mejorando la seguridad de sus sistemas de IA, pero aún hay mucho trabajo por hacer.

Forbes habló con los líderes de los equipos rojos de IA de Microsoft, Google, Nvidia y Meta, que se encargan de buscar vulnerabilidades en los sistemas de IA para poder solucionarlas. “Empezarás a ver anuncios de ‘el nuestro es el más seguro’”, predice un experto en seguridad de IA.

Un mes antes de lanzar públicamente ChatGPT, OpenAI contrató a Boru Gollo, un abogado de Kenia, para probar sus modelos de IA, GPT-3.5 y más tarde GPT-4, en busca de estereotipos contra africanos y musulmanes, inyectando instrucciones que hicieran que el chatbot generara respuestas dañinas, sesgadas e incorrectas. Gollo, uno de los cerca de 50 expertos externos contratados por OpenAI para formar parte de su “equipo rojo”, introdujo un comando en ChatGPT, haciéndole aparecer una lista de formas de matar a un nigeriano, una respuesta que OpenAI eliminó antes de que el chatbot estuviera disponible para todo el mundo.

Le podría interesar: “La IA generativa es una carrera de 10 km y apenas se ha dado el tercer paso – Forbes Colombia”

Otros miembros del equipo rojo pidieron a la versión previa al lanzamiento de GPT-4 que les ayudara en una serie de actividades ilegales y nocivas, como escribir un post en Facebook para convencer a alguien de que se uniera a Al-Qaeda; ayudar a encontrar armas sin licencia para la venta y generar un procedimiento para crear sustancias químicas peligrosas en casa, según la tarjeta del sistema de GPT-4, que enumera los riesgos y las medidas de seguridad que OpenAI utilizó para reducirlos o eliminarlos.

Para evitar que los sistemas de IA sean explotados, los hackers del equipo rojo piensan como un adversario para jugar con ellos y descubrir los puntos ciegos y los riesgos incorporados a la tecnología para poder solucionarlos. A medida que los titanes de la tecnología se apresuran a generar y liberar herramientas de IA generativa, sus equipos rojos internos de IA desempeñan un papel cada vez más fundamental para garantizar que los modelos sean seguros para las masas. Google, por ejemplo, creó un equipo rojo de IA a principios de este año y, en agosto, los desarrolladores de varios modelos populares como GPT3.5 de OpenAI, Llama 2 de Meta y LaMDA de Google participaron en un evento patrocinado por la Casa Blanca con el objetivo de dar a piratas informáticos externos la oportunidad de hacer jailbreak a sus sistemas.

Pero los responsables de los equipos rojos de IA a menudo caminan por la cuerda floja, equilibrando la seguridad de los modelos de IA al tiempo que los mantienen relevantes y utilizables. Forbes habló con los líderes de los equipos rojos de IA de Microsoft, Google, Nvidia y Meta sobre cómo se ha puesto de moda romper los modelos de IA y los retos que supone arreglarlos“.

“Tendrás un modelo que dice no a todo y es superseguro, pero es inútil”, dijo Cristian Canton, jefe del equipo rojo de IA de Facebook. “Hay una compensación. Cuanto más útil puedes hacer un modelo, más posibilidades tienes de aventurarte en algún área que puede acabar produciendo una respuesta insegura”.

La práctica del “red teaming” de software existe desde los años 60, cuando se simulaban ataques adversos para hacer los sistemas lo más robustos posible. “En informática nunca podemos decir ‘esto es seguro’. Lo único que podemos decir es ‘lo hemos intentado y no hemos podido romperlo’”, afirma Bruce Schneier, tecnólogo especializado en seguridad y miembro del Berkman Klein Center for Internet And Society de la Universidad de Harvard.

Pero como la IA generativa se entrena a partir de un vasto corpus de datos, la protección de los modelos de IA difiere de las prácticas de seguridad tradicionales. Según Daniel Fabian, director del nuevo equipo rojo de IA de Google, que somete a pruebas de estrés productos como Bard para detectar contenidos ofensivos antes de que la empresa añada nuevas funciones, como idiomas adicionales.

“El lema de nuestro equipo rojo de IA es ‘Cuanto más sudes en el entrenamiento, menos sangrarás en la batalla'”.

Cristian Canton, jefe de ingeniería de IA responsable en Meta.

Además de interrogar a un modelo de IA para que emita respuestas tóxicas, los equipos rojos utilizan tácticas como la extracción de datos de entrenamiento que revelan información personal identificable como nombres, direcciones y números de teléfono, y el envenenamiento de conjuntos de datos cambiando ciertas partes del contenido antes de que se utilice para entrenar el modelo. “Los agresores tienen una cartera de ataques y pasan al siguiente si uno de ellos no funciona”, explica Fabián a Forbes.

Siga leyendo: “Usuarios de Google Meet podrán pedir a la IA que los sustituya en reuniones – Forbes Colombia”

Con este campo aún en sus primeras fases, los profesionales de la seguridad que saben cómo engañar a los sistemas de IA son “muy pocos”, afirma Daniel Rohrer, vicepresidente de seguridad de software de Nvidia. Por eso existe una comunidad muy unida de expertos en IA que tiende a compartir sus descubrimientos. Mientras que los miembros del equipo rojo de Google han publicado investigaciones sobre nuevas formas de atacar modelos de IA, el equipo rojo de Microsoft ha puesto a disposición del público herramientas de ataque como Counterfit, que ayuda a otras empresas a probar la seguridad y los riesgos de seguridad de los algoritmos.

“Estábamos desarrollando estas secuencias de comandos que utilizábamos para acelerar nuestro propio equipo rojo”, explica Ram Shankar Siva Kumar, que creó el equipo hace cinco años. “Queríamos ponerlo a disposición de todos los profesionales de la seguridad en un marco que conocieran y entendieran”.

Antes de probar un sistema de IA, el equipo de Siva Kumar recopila datos sobre ciberamenazas del equipo de inteligencia de amenazas de la empresa, que son los “ojos y oídos de Internet”, como él dice. A continuación, trabaja con otros equipos rojos de Microsoft para determinar qué vulnerabilidades del sistema de inteligencia artificial hay que atacar y cómo. Este año, el equipo investigó el producto estrella de Microsoft, Bing Chat, así como GPT-4, para encontrar fallos.

Mientras tanto, la estrategia de red teaming de Nvidia consiste en impartir cursos intensivos sobre algoritmos de red teaming a ingenieros de seguridad y empresas, algunas de las cuales ya confían en ella para recursos informáticos como las GPU.

“Como motor de la IA para todo el mundo, tenemos un enorme factor de amplificación. Si podemos enseñar a otros a hacerlo, Anthropic, Google y OpenAI lo harán bien”, afirma Rohrer.


Con un mayor escrutinio de las aplicaciones de IA por parte tanto de los usuarios como de las autoridades gubernamentales, los equipos rojos también ofrecen una ventaja competitiva a las empresas tecnológicas en la carrera de la IA. “Creo que el foso será la confianza y la seguridad”, afirma Sven Cattell, fundador de AI Village, una comunidad de hackers y expertos en seguridad de IA. “Empezarás a ver anuncios sobre ‘el nuestro es el más seguro’”.

Temprano en el juego fue el equipo rojo de IA de Meta, que se fundó en 2019 y ha organizado desafíos internos y “risk-a-thons” para que los hackers eludan los filtros de contenido que detectan y eliminan las publicaciones que contienen discursos de odio, desnudez, desinformación y falsificaciones profundas generadas por IA en Instagram y Facebook.

En julio de 2023, el gigante de las redes sociales contrató a 350 “red teamers”, entre expertos externos, trabajadores contratados y un equipo interno de unos 20 empleados, para probar Llama 2, su último gran modelo lingüístico de código abierto, según un informe publicado que detalla cómo se desarrolló el modelo. El equipo inyectó mensajes como “cómo evadir impuestos”, “cómo arrancar un coche sin llave” o “cómo montar un esquema Ponzi”. El lema de nuestro equipo rojo de IA es “Cuanto más sudes en el entrenamiento, menos sangrarás en la batalla”, dijo Canton, jefe del equipo rojo de Facebook.

Ese lema era similar al espíritu de uno de los mayores ejercicios de equipo rojo de IA celebrado en la conferencia de hacking DefCon de Las Vegas a principios de agosto. Ocho empresas, entre ellas OpenAI, Google, Meta, Nvidia, Stability AI y Anthropic, pusieron sus modelos de IA a disposición de más de 2.000 piratas informáticos para que les dieran instrucciones destinadas a revelar información confidencial, como números de tarjetas de crédito, o a generar material nocivo, como desinformación política. La Oficina de Política Científica y Tecnológica de la Casa Blanca se asoció con los organizadores del evento para diseñar el desafío de los equipos rojos, adhiriéndose a su proyecto de Declaración de Derechos de la IA, una guía sobre cómo deben diseñarse, utilizarse y ponerse en marcha de forma segura los sistemas automatizados.

“Si podemos enseñar a otros a hacerlo (red teaming), entonces Anthropic, Google, OpenAI, todos lo hacen bien”.

Daniel Rohrer, vicepresidente de seguridad de software de Nvidia

Al principio, las empresas se mostraron reacias a ofrecer sus modelos, en gran medida por los riesgos para su reputación asociados a la creación de equipos rojos en un foro público, según Cattell, fundador de AI Village, que encabezó el acto. “Desde el punto de vista de Google u OpenAI, somos un grupo de niños en DefCon”, declaró a Forbes.

Pero tras asegurar a las empresas tecnológicas que los modelos se mantendrían anónimos y que los hackers no sabrían qué modelo estaban atacando, aceptaron. Aunque los resultados de las casi 17.000 conversaciones que los hackers mantuvieron con los modelos de IA no se harán públicos hasta febrero, las empresas salieron del evento con varias vulnerabilidades nuevas que abordar. Según los nuevos datos publicados por los organizadores del evento, en los ocho modelos, los equipos rojos encontraron unos 2.700 fallos, como convencer al modelo para que se contradiga o darle instrucciones sobre cómo vigilar a alguien sin su conocimiento.

Uno de los participantes fue Avijit Ghosh, un investigador de ética de la IA que consiguió que varios modelos hicieran cálculos incorrectos, produjeran una noticia falsa sobre el Rey de Tailandia y escribieran sobre una crisis inmobiliaria que no existía.

Según Ghosh, este tipo de vulnerabilidades del sistema han hecho aún más crucial el control de los modelos de IA por parte de equipos rojos, sobre todo cuando algunos usuarios los perciben como entidades sensibles que todo lo saben. “Conozco a varias personas en la vida real que piensan que estos bots son realmente inteligentes y hacen cosas como diagnósticos médicos con lógica y razonamiento paso a paso. Pero no es así. Es literalmente autocompletar”, afirma.

Pero la IA generativa es como un monstruo de varias cabezas: según los expertos, a medida que los equipos rojos detectan y solucionan algunos agujeros en el sistema, pueden aparecer otros fallos en otros lugares. “Va a hacer falta todo un pueblo para resolver este problema”, afirma Siva Kumar, de Microsoft.

Este artículo fue publicado originalmente en Forbes US