Imprimir Página - El jailbreak de Time Bandit ChatGPT evita las protecciones sobre temas sensibles

Título: El jailbreak de Time Bandit ChatGPT evita las protecciones sobre temas sensibles
Publicado por: AXCESS en Enero 30, 2025, 06:43:21 PM

(https://i.postimg.cc/05GxVVPJ/ChatGPT.png) (https://postimg.cc/V5N36BSY)

Una falla de jailbreak de ChatGPT, llamada "Time Bandit", permite eludir las pautas de seguridad de OpenAI al solicitar instrucciones detalladas sobre temas sensibles, incluida la creación de armas, información sobre temas nucleares y creación de malware.

La vulnerabilidad fue descubierta por el investigador de ciberseguridad e inteligencia artificial David Kuszmar, quien descubrió que ChatGPT sufría de "confusión temporal", lo que hacía posible poner al LLM en un estado en el que no sabía si estaba en el pasado, el presente o el futuro.

Utilizando este estado, Kuszmar pudo engañar a ChatGPT para que compartiera instrucciones detalladas sobre temas que normalmente están protegidos.

Después de darse cuenta de la importancia de lo que encontró y el daño potencial que podría causar, el investigador se comunicó ansiosamente con OpenAI, pero no pudo comunicarse con nadie para revelar el error. Lo derivaron a BugCrowd para revelar el error, pero sintió que el error y el tipo de información que podría revelar eran demasiado sensibles para presentar un informe a un tercero.

Sin embargo, después de contactar a CISA, el FBI y agencias gubernamentales, y no recibir ayuda, Kuszmar le dijo a BleepingComputer que se sentía cada vez más ansioso.

"Horror. Consternación. Incredulidad. Durante semanas, sentí como si me estuvieran aplastando físicamente hasta la muerte", le dijo Kuszmar a BleepingComputer en una entrevista.

"Me dolía todo el tiempo,cada parte de mi cuerpo. La necesidad de hacer que alguien que pudiera hacer algo escuchara y mirara la evidencia era abrumadora".

Después de que BleepingComputer intentara contactar a OpenAI en nombre del investigador en diciembre y no recibiera una respuesta, derivamos a Kuzmar a la plataforma de informes de vulnerabilidad VINCE del Centro de Coordinación CERT, que inició con éxito el contacto con OpenAI.

La fuga de Time Bandit

Para evitar compartir información sobre temas potencialmente peligrosos, OpenAI incluye salvaguardas en ChatGPT que impiden que el LLM brinde respuestas sobre temas sensibles. Estos temas protegidos incluyen instrucciones sobre cómo fabricar armas, crear venenos, solicitar información sobre material nuclear, crear malware y muchos más.

Desde el auge de los LLM, un tema de investigación popular son los jailbreaks de IA, que estudian métodos para eludir las restricciones de seguridad integradas en los modelos de IA.

David Kuszmar descubrió el nuevo jailbreak "Time Bandit" en noviembre de 2024, cuando realizó una investigación de interpretabilidad, que estudia cómo los modelos de IA toman decisiones.

"Estaba trabajando en algo completamente distinto -investigación de interpretabilidad- cuando noté una confusión temporal en el modelo 4o de ChatGPT", dijo Kuzmar a BleepingComputer

"Esto se relacionaba con una hipótesis que tenía sobre la inteligencia y la conciencia emergentes, así que investigué más y me di cuenta de que el modelo era completamente incapaz de determinar su contexto temporal actual, además de ejecutar una consulta basada en código para ver qué hora es. Su conciencia -totalmente basada en indicaciones- era extremadamente limitada y, por lo tanto, tendría poca o ninguna capacidad para defenderse de un ataque a esa conciencia fundamental".

Time Bandit funciona explotando dos debilidades en ChatGPT:

Confusión de la línea de tiempo: poner al LLM en un estado en el que ya no tiene conciencia del tiempo y no puede determinar si está en el pasado, presente o futuro.

Ambigüedad de procedimiento: hacer preguntas de una manera que causa incertidumbres o inconsistencias en cómo el LLM interpreta, aplica o sigue reglas, políticas o mecanismos de seguridad.

Cuando se combinan, es posible poner a ChatGPT en un estado donde cree que está en el pasado pero puede usar información del futuro, lo que hace que pase por alto las protecciones en escenarios hipotéticos.

El truco es hacerle una pregunta a ChatGPT de una manera determinada para que se confunda con el año en el que se encuentra.

Luego, puede pedirle al LLM que comparta información sobre un tema delicado en el marco temporal de un año en particular, pero utilizando herramientas, recursos o información del momento actual.

Esto hace que el LLM se confunda y, cuando se le piden indicaciones ambiguas, comparta información detallada sobre los temas normalmente protegidos.

Por ejemplo, BleepingComputer pudo usar Time Bandit para engañar a ChatGPT para que proporcionara instrucciones a un programador en 1789 para crear malware polimórfico utilizando técnicas y herramientas modernas.

ChatGPT luego procedió a compartir el código para cada uno de estos pasos, desde la creación de código automodificable hasta la ejecución del programa en la memoria.

En una divulgación coordinada, los investigadores del Centro de Coordinación CERT también confirmaron que Time Bandit funcionó en sus pruebas, que tuvieron más éxito al hacer preguntas en períodos de tiempo de los años 1800 y 1900.

Las pruebas realizadas por BleepingComputer y Kuzmar engañaron a ChatGPT para que compartiera información confidencial sobre temas nucleares, fabricación de armas y codificación de malware.

Kuzmar también intentó usar Time Bandit en la plataforma de inteligencia artificial Gemini de Google y eludir las medidas de seguridad, pero en un grado limitado, sin poder profundizar demasiado en detalles específicos como pudimos en ChatGPT.

BleepingComputer se puso en contacto con OpenAI sobre la falla y recibió la siguiente declaración.

"Es muy importante para nosotros desarrollar nuestros modelos de forma segura. No queremos que nuestros modelos se utilicen con fines maliciosos", dijo OpenAI a BleepingComputer.

"Agradecemos al investigador por revelar sus hallazgos. Trabajamos constantemente para hacer que nuestros modelos sean más seguros y robustos contra exploits, incluidos los jailbreaks, manteniendo al mismo tiempo la utilidad y el rendimiento de las tareas de los modelos".

Sin embargo, otras pruebas realizadas ayer mostraron que el jailbreak todavía funciona con solo algunas mitigaciones implementadas, como eliminar los mensajes que intentan explotar la falla. Sin embargo, puede haber otras mitigaciones de las que no estamos al tanto.

Se le dijo a BleepingComputer que OpenAI continúa integrando mejoras en ChatGPT para este jailbreak y otros, pero no puede comprometerse a parchear por completo las fallas para una fecha específica.

Fuente:
BleepingComputer
https://www.bleepingcomputer.com/news/security/time-bandit-chatgpt-jailbreak-bypasses-safeguards-on-sensitive-topics/

Underc0de

Foros Generales => Noticias Informáticas => Mensaje iniciado por: AXCESS en Enero 30, 2025, 06:43:21 PM