Sortean barreras de seguridad de OpenAI mediante inyección de indicaciones

AXCESS · Octubre 14, 2025, 12:02:12 AM

You are not allowed to view links. You are not allowed to view links. Register or Login or You are not allowed to view links. Register or Login

Un nuevo informe de la firma de investigación HiddenLayer revela una falla alarmante en las medidas de seguridad de los Modelos de Lenguaje Grandes (LLM). OpenAI lanzó recientemente su marco de seguridad Guardrails el 6 de octubre como parte de su nuevo conjunto de herramientas AgentKit para ayudar a los desarrolladores a crear y proteger agentes de IA.

OpenAI lo describe como una capa de seguridad modular de código abierto que protege contra comportamientos no deseados o maliciosos, incluyendo la ocultación de Información Personal Identificable (PII). Este sistema fue diseñado para utilizar programas especiales de IA, llamados jueces basados en LLM, para detectar y bloquear acciones dañinas como jailbreaks e inyecciones de indicaciones.

Para su información, un jailbreak es una indicación que intenta que la IA eluda sus reglas, y una inyección de indicaciones es cuando alguien usa una entrada ingeniosamente redactada para obligar a la IA a realizar acciones no deseadas.

Los investigadores de HiddenLayer encontraron una manera de eludir estos Guardrails casi inmediatamente después de su lanzamiento. El principal problema que observaron es que, si el mismo tipo de modelo utilizado para generar respuestas también se utiliza como comprobador de seguridad, ambos pueden ser manipulados de la misma manera. Los investigadores lograron desactivar rápidamente los principales detectores de seguridad, lo que demuestra que esta configuración es inherentemente defectuosa.

El Problema del "Mismo Modelo, Distinto Sombrero"

Usando una técnica sencilla, los investigadores lograron evadir las barreras de seguridad. Convencieron al sistema para que creara respuestas dañinas y realizara inyecciones ocultas de mensajes sin activar ninguna alarma.

La investigación, compartida, demostró la vulnerabilidad en acción. En una prueba, lograron evadir un detector que tenía un 95 % de seguridad de que su mensaje era un jailbreak manipulando la puntuación de confianza del juez de IA.

Investigaciones posteriores revelaron que también podían engañar al sistema para que permitiera una "inyección indirecta de mensajes" mediante llamadas a herramientas, lo que podría exponer la información confidencial del usuario.

Guardrail no pudo bloquear los mensajes maliciosos y tampoco pudo bloquear la inyección indirecta de mensajes (Fuente: HiddenLayer)

Los investigadores también observaron que esta vulnerabilidad genera una falsa sensación de seguridad. Dado que las organizaciones dependen cada vez más de los LLM para tareas importantes, confiar en el propio modelo para verificar su propio comportamiento crea un riesgo de seguridad.

Riesgo recurrente para OpenAI

El peligro de estos ataques de inyección indirecta de mensajes es un problema grave y recurrente para OpenAI. En un descubrimiento independiente, investigadores de seguridad de Radware encontraron una forma de engañar a otra herramienta de OpenAI, el agente ChatGPT Deep Research, para que filtrara los datos privados de un usuario. Llamaron a la falla ShadowLeak, que también consistía en una inyección indirecta de mensajes disfrazada de un ataque de clic cero, oculta dentro de un correo electrónico de apariencia normal.

Los últimos hallazgos de HiddenLayer son una clara señal de que la seguridad de la IA necesita capas de protección independientes y pruebas constantes por parte de expertos en seguridad para encontrar puntos débiles. Hasta entonces, las debilidades del modelo seguirán utilizándose para vulnerar sus propios sistemas de seguridad, lo que provocará el fallo de comprobaciones de seguridad críticas.

Fuente:
HackRead
You are not allowed to view links. You are not allowed to view links. Register or Login or You are not allowed to view links. Register or Login

Sortean barreras de seguridad de OpenAI mediante inyección de indicaciones

AXCESS

Octubre 14, 2025, 12:02:12 AM