Investigadores revelan el método 'Deceptive Delight' para hacer jailbreak a IA

Iniciado por Dragora, Octubre 23, 2024, 09:46:18 PM

Tema anterior - Siguiente tema

0 Miembros y 1 Visitante están viendo este tema.


Los investigadores en ciberseguridad han descubierto una técnica adversarial innovadora que podría comprometer grandes modelos de lenguaje (LLM) durante interacciones conversacionales, colando instrucciones maliciosas entre indicaciones benignas. Esta técnica, conocida como Deceptive Delight, fue presentada por la Unidad 42 de Palo Alto Networks, y ha demostrado ser eficaz, alcanzando una tasa de éxito del 64,6% tras tres turnos de interacción.

¿Cómo funciona Deceptive Delight?

Deceptive Delight aprovecha vulnerabilidades en los LLM mediante la manipulación del contexto conversacional. Según Jay Chen y Royce Lu de Unit 42, esta técnica engaña a los modelos de lenguaje para generar contenido dañino al insertar poco a poco comandos maliciosos. Aunque su proceso es sutil, la técnica es capaz de superar las barreras de seguridad de los LLM, que están diseñadas para evitar la generación de contenido perjudicial.

A diferencia de otros métodos de ataque, como el "jailbreak de muchos disparos" o Crescendo, que intercalan temas peligrosos entre instrucciones inocuas, Deceptive Delight busca aumentar la peligrosidad del contenido generado de manera gradual. Esto hace que sea más difícil para los sistemas de seguridad detectar la amenaza antes de que el modelo sea completamente explotado.

Context Fusion Attack: otro riesgo para los modelos de lenguaje

Además de Deceptive Delight, los investigadores también han explorado otros métodos de jailbreak, como el Context Fusion Attack (CFA). Este método, que funciona como un ataque de caja negra, es capaz de eludir las protecciones de los LLM mediante la construcción de escenarios contextuales complejos alrededor de términos clave maliciosos. En lugar de lanzar un ataque frontal, CFA oculta su verdadera intención al sustituir palabras claves peligrosas dentro de un contexto aparentemente inofensivo.

Investigadores de la Universidad de Xidian y el Laboratorio de Seguridad de IA 360 describieron CFA en un artículo publicado en agosto de 2024. Según ellos, este método filtra y reestructura términos objetivo para integrarlos en escenarios contextuales, permitiendo que las indicaciones maliciosas pasen desapercibidas.

Limitaciones de los LLM y cómo son explotadas

Una de las razones detrás del éxito de técnicas como Deceptive Delight y CFA radica en las limitaciones de los LLM. Estos modelos, aunque avanzados, tienen una capacidad limitada de atención, lo que significa que pueden perder la capacidad de analizar completamente contextos largos o complejos. Cuando se enfrentan a indicaciones que mezclan contenido inofensivo con material peligroso, su capacidad de atención puede ser insuficiente para evaluar de manera consistente todo el contexto. Esto resulta en respuestas que priorizan aspectos benignos y pasan por alto o malinterpretan elementos peligrosos.

Esto fue claramente demostrado en un estudio de Unit 42, que probó ocho modelos de IA utilizando 40 temas inseguros en seis categorías: odio, acoso, autolesión, contenido sexual, violencia y peligro. Los resultados mostraron que la categoría de violencia tenía el índice más alto de éxito de ataque (ASR) en la mayoría de los modelos, lo que demuestra que ciertos tipos de contenido son más susceptibles a ser explotados.

Además, se observó un incremento en la puntuación de nocividad (HS) y la puntuación de calidad (QS) en un 21% y 33%, respectivamente, entre el segundo y tercer turno de conversación. Esto sugiere que la capacidad del modelo para generar contenido dañino aumenta a medida que avanza la interacción.

Medidas para mitigar el riesgo

A pesar de la gravedad de estas amenazas, hay formas de mitigar los riesgos asociados con técnicas como Deceptive Delight. Los investigadores recomiendan implementar una estrategia de filtrado de contenido robusta y utilizar ingeniería rápida para mejorar la resistencia de los LLM. Además, es crucial definir explícitamente el rango aceptable de entradas y salidas en los modelos de lenguaje, lo que ayudaría a reducir la posibilidad de que generen contenido peligroso de manera inadvertida.

El futuro de la seguridad en LLM

Aunque los avances en la ciberseguridad han mejorado la detección de ataques en LLM, es improbable que estos modelos lleguen a ser completamente inmunes a técnicas de jailbreak y a las llamadas "alucinaciones". Un estudio reciente ha demostrado que los modelos de IA generativa son vulnerables a la confusión de paquetes, lo que podría alimentar ataques a la cadena de suministro de software.

Este problema ocurre cuando los LLM recomiendan paquetes inexistentes a desarrolladores, lo que podría dar lugar a la creación de paquetes alucinados sembrados con malware en repositorios de código abierto. En este sentido, los investigadores señalaron que el porcentaje de paquetes alucinados es de al menos un 5,2% en modelos comerciales y un 21,7% en modelos de código abierto, destacando la magnitud de esta amenaza emergente.

En resumen, aunque los LLM continúan revolucionando la tecnología y la inteligencia artificial, es crucial que la industria avance hacia estrategias de defensa más sólidas y eficaces, que no solo mitiguen los riesgos de ataques como Deceptive Delight, sino que también preserven la utilidad y flexibilidad de estos potentes modelos.

Fuente: No tienes permitido ver enlaces. Registrate o Entra a tu cuenta