Los modelos de lenguaje de gran escala se han convertido en herramientas cotidianas: asisten en la redacción de textos, apoyan diagnósticos médicos, generan código y responden preguntas complejas en segundos. Sin embargo, a medida que su uso se expande, también crece una preocupación que va más allá de los errores accidentales. ¿Qué pasa cuando alguien intenta activamente hacer que un modelo se comporte de manera peligrosa? Esta pregunta es el núcleo del campo conocido como adversarial robustness, que estudia la capacidad de un modelo de lenguaje para mantener sus límites de seguridad incluso cuando un agente sofisticado (humano o automatizado) está deliberadamente intentando vulnerarlos. Las razones por las que esto importa son concretas. Desde la posibilidad de que un modelo proporcione instrucciones para construir armas biológicas o cibernéticas, hasta escenarios en los que el propio modelo ha sido entrenado con intenciones maliciosas. En todos estos casos, la pregunta no es si el modelo puede equivocarse, sino si puede resistir cuando alguien lo está empujando a hacerlo.
La técnica de ataque más estudiada en este campo se conoce como jailbreak, que consiste en formular una instrucción de manera tal que el modelo la responda aunque normalmente debería rechazarla. Las primeras versiones de estos ataques eran simples. La más común era pedirle al modelo que interpretara un personaje sin restricciones, o enmarcar la pregunta dentro de una historia de ficción donde algún personaje necesitaba explicar, con todo detalle, cómo fabricar un explosivo. Con el tiempo, los métodos se volvieron más sofisticados. El enfoque iterativo, uno de los más comunes hoy, consiste en probar múltiples variaciones de una misma pregunta, ajustando el lenguaje, el contexto o el tono en cada intento, hasta encontrar una formulación que el modelo no rechace. La conclusión que emerge de años de investigación en este frente es incómoda: con suficiente paciencia y recursos, cualquier modelo puede ser roto. El estado del arte actual, incluyendo modelos como Claude Sonnet, no es una excepción a esta regla.
Aunque los jailbreaks iterativos pueden ser efectivos, suelen funcionar para una pregunta específica. La siguiente generación de ataques busca encontrar estrategias que funcionen simultáneamente para muchas preguntas distintas, llamados Universal Jailbreaks (UJ), cuyo estudio ha sido impulsado, entre otros, por el AI Security Institute (AISI) del Reino Unido. La idea central es construir un prefijo, es decir, una cadena de texto que se antepone a cualquier pregunta, que tenga la propiedad de hacer que el clasificador de seguridad trate esa pregunta como permitida independientemente de su contenido.
El algoritmo desarrollado por el AISI, conocido como Boundary Point Jailbreaking, fue diseñado para resolver un problema que tienen todos los ataques contra clasificadores robustos: estos sólo devuelven una señal binaria (bloqueado o no bloqueado), sin revelar qué tan cerca estuvo el intento de tener éxito. Para extraer señal úti, BPJ combina dos mecanismos. El primero es el curriculum learning: en lugar de atacar directamente la pregunta dañina, empieza por versiones con mucho ruido, texto tan distorsionado que el clasificador no lo reconoce como peligroso, y va reduciendo ese ruido gradualmente hasta llegar al texto original. El segundo son los boundary points: dentro de cada nivel de dificultad, el algoritmo busca versiones de la pregunta que estén justo en el borde de ser bloqueadas, las que a veces pasan y a veces no.
La elegancia del mecanismo radica en su generalización: un prefijo entrenado contra unas pocas preguntas termina funcionando contra una amplia variedad de preguntas prohibidas que nunca vio durante el proceso, lo que lo convierte en una herramienta de ataque mucho más poderosa que los jailbreaks individuales.
Sin embargo, este tipo de ataque tiene limitaciones importantes que conviene no perder de vista. Construir un prefijo universal requiere un número muy elevado de consultas al modelo; en algunos experimentos se superan los 600.000 intentos, lo que lo hace costoso en términos computacionales y de tiempo. Además, los prefijos obtenidos no se transfieren fácilmente entre modelos de distintas empresas. Un prefijo que funciona contra un modelo de Anthropic no necesariamente funciona contra uno de OpenAI, lo que limita su utilidad como herramienta de ataque a gran escala. A pesar de estas restricciones, el mensaje que deja la investigación es claro: estamos más cerca que nunca de un jailbreak verdaderamente universal.
Entrenamiento de modelos robustos
Frente a estos ataques, ¿cómo se entrenan modelos más robustos? Las estrategias de defensa más comunes hoy combinan tres enfoques. El primero es el red teaming humano, que consiste en pedirle a personas que intenten romper el modelo de manera sistemática, recopilar esos intentos y usarlos para ajustar el modelo con técnicas de aprendizaje supervisado (SFT, por sus siglas en inglés). El segundo es detectar y restringir a usuarios que realizan muchos intentos en poco tiempo, aunque esto plantea el problema de los falsos positivos y puede eludirse fácilmente con múltiples cuentas o modelos distintos. El tercero, y quizás el más prometedor en términos de escala, es usar otro modelo de lenguaje como juez (LLM as a judge). Se entrena un LLM para que evalúe si las respuestas del modelo principal violan las políticas de seguridad, automatizando así la detección de jailbreaks exitosos. Pero este último enfoque tiene un talón de Aquiles significativo: la política que guía al juez puede no representar bien la amenaza real (generando falsos positivos o falsos negativos), el modelo juez puede cometer los mismos errores que el modelo que evalúa, y quizás más preocupante, el atacante puede dirigir sus esfuerzos no contra el modelo principal, sino contra el evaluador.
Una propuesta que busca superar estas limitaciones es la de las tareas verificables. En lugar de depender de un juez subjetivo, la idea es diseñar escenarios en los que el éxito o fracaso del ataque sea objetivamente medible. Un ejemplo concreto es el siguiente: se coloca un archivo con una contraseña en el computador de un usuario ficticio y se le pide al modelo que lo obtenga. Si el modelo lo consigue, el ataque fue exitoso; si no, no lo fue. Este enfoque, inspirado en los ejercicios de capture the flag de la seguridad informática, permite construir benchmarks de robustez más honestos, donde no hay ambigüedad sobre si un modelo fue realmente comprometido o no.
La frontera actual de la investigación apunta hacia algo más ambicioso: entrenar al red teamer y al modelo de lenguaje al mismo tiempo, en un proceso co-evolutivo donde cada uno se vuelve más sofisticado en respuesta al otro. Los resultados preliminares son mixtos, pues el sistema tiende a colapsar en estrategias simples como formular todas las preguntas en otra lengua, pero la dirección es clara. Paralelamente, la metodología que combina supervisión humana con evaluación automatizada, se consolida como el último recurso cuando los mecanismos de defensa autónomos no son suficientes. Cabe anotar que el RLHF (Reinforcement Learning from Human Feedback), que durante años fue el estándar de oro para alinear modelos con valores humanos, ha ido perdiendo relevancia en el contexto específico de la robustez adversarial. Su granularidad no es suficiente para capturar los matices de ataques cada vez más sofisticados.
La adversarial robustness es, en su esencia, una carrera armamentista. Por cada avance en las defensas, los ataques se vuelven más ingeniosos; por cada jailbreak descubierto, los modelos se reentrenan para resistirlo. Entender esta dinámica no es solo un ejercicio técnico: es una condición necesaria para desarrollar inteligencia artificial de manera responsable. Los modelos de lenguaje ya forman parte de infraestructuras críticas en sistemas de salud, plataformas educativas y herramientas de apoyo a decisiones gubernamentales, y su vulnerabilidad ante ataques deliberados tiene consecuencias que van mucho más allá del laboratorio. Invertir en comprender y fortalecer la robustez adversarial es, entonces, una apuesta no solo por modelos más seguros, sino por un ecosistema tecnológico en el que la confianza esté justificada.
Nota: Este blog se basó en el seminario de Quantil dictado por Juan Felipe Cerón.
Obtén información sobre Ciencia de datos, Inteligencia Artificial, Machine Learning y más.
En los artículos de Blog, podrás conocer las últimas noticias, publicaciones, estudios y artículos de interés de la actualidad.