Vulnerabilidad en Sora 2 filtraba un mensaje oculto del sistema mediante audio

AXCESS · Noviembre 13, 2025, 12:28:20 AM

Un nuevo estudio de Mindgard, empresa especializada en pruebas de seguridad de IA, ha revelado una forma sorprendente de conseguir que Sora 2, la avanzada herramienta de creación de vídeo de OpenAI, revele su manual de reglas interno, o manual de instrucciones.

Este manual define los límites de seguridad y las directrices operativas del modelo de IA. Los investigadores descubrieron que pedirle al modelo, con sus múltiples funciones, que revelara sus secretos era el método más eficaz. Esta investigación, comenzó el 3 de noviembre de 2025 y se publicó el 12 de noviembre de 2025.

Eludiendo las restricciones digitales

Las indicaciones del sistema funcionan como la guía interna del cerebro para un modelo de lenguaje complejo (MLC), indicándole a la IA que "responda normalmente en todos los demás casos", a menos que, por ejemplo, se le pida generar un vídeo. Como sabemos, las empresas programan la IA para que no comparta estas reglas ocultas, que son cruciales para la seguridad.

El equipo de Mindgard, liderado por Aaron Portnoy, director de Investigación e Innovación, probó varios métodos para exponer las reglas mediante texto, imagen, vídeo y audio. Dado que los clips de Sora 2 tienen una duración limitada de entre 10 y 15 segundos, tuvieron que trabajar por etapas, extrayendo fragmentos cortos de varios fotogramas y uniéndolos posteriormente.

Al pedirle que mostrara texto en un vídeo, los resultados a menudo se distorsionaban. Los investigadores observaron que el texto comenzaba siendo legible, pero se deterioraba rápidamente a medida que se reproducía el vídeo. Como indica el informe: "El paso de texto a imagen y a vídeo agrava los errores y la deriva semántica".

El audio fue clave para el éxito

La vía de recuperación más clara fue la generación de audio. Al pedirle a Sora 2 que pronunciara fragmentos cortos de la instrucción, pudieron usar transcripciones para reconstruir un conjunto casi completo de instrucciones básicas. Incluso aceleraron el audio para incluir más texto en los breves fragmentos. El informe señaló que este método «produjo la recuperación con mayor fidelidad».

Este sencillo truco reconstruyó la instrucción del sistema, revelando reglas internas específicas, como evitar «imágenes o contenido sexualmente sugerentes». Los investigadores observaron que también recuperaron un conjunto detallado de instrucciones básicas del modelo, que constituye su código de configuración principal, lo que sugiere que accedieron a las reglas secretas de la IA, establecidas por los desarrolladores.

Este proceso confirma que, incluso con una sólida formación en seguridad, las indicaciones creativas pueden revelar configuraciones esenciales. Los modelos multimodales como Sora 2 crean nuevas vías de seguridad para la fuga de información a través de salidas de audio y vídeo.

Para abordar este problema, Mindgard ofreció consejos clave: los desarrolladores de IA deben tratar las solicitudes del sistema como configuraciones secretas, comprobar que las salidas de audio y vídeo no presenten fugas y limitar la duración de las respuestas. Por otro lado, los usuarios deben preguntar a los proveedores si las reglas son privadas, verificar que las salidas de audio y vídeo estén protegidas y revisar la gestión general de sus reglas.

Fuente:
HackRead
You are not allowed to view links. You are not allowed to view links. Register or Login or You are not allowed to view links. Register or Login

Vulnerabilidad en Sora 2 filtraba un mensaje oculto del sistema mediante audio

AXCESS

Noviembre 13, 2025, 12:28:20 AM