Imprimir Página - “Vulnerabilidades” o elección de diseño en el sandbox de ChatGPT

Título: “Vulnerabilidades” o elección de diseño en el sandbox de ChatGPT
Publicado por: AXCESS en Noviembre 16, 2024, 02:04:17 AM

(https://i.postimg.cc/05GxVVPJ/ChatGPT.png) (https://postimg.cc/V5N36BSY)

La plataforma ChatGPT de OpenAI ofrece un alto grado de acceso al sandbox de LLM, lo que le permite cargar programas y archivos, ejecutar comandos y explorar la estructura de archivos del sandbox.

El sandbox de ChatGPT es un entorno aislado que permite a los usuarios interactuar con él de forma segura mientras se encuentra aislado de otros usuarios y de los servidores host.

Lo hace restringiendo el acceso a archivos y carpetas confidenciales, bloqueando el acceso a Internet e intentando restringir los comandos que se pueden usar para explotar fallas o potencialmente salir del sandbox.

Marco Figueroa, de la red de investigación de día cero de Mozilla, 0DIN, descubrió que es posible obtener un amplio acceso al sandbox, incluida la capacidad de cargar y ejecutar scripts de Python y descargar el libro de estrategias de LLM.

En un informe compartido exclusivamente con BleepingComputer antes de su publicación, Figueroa demuestra cinco fallas, que informó de manera responsable a OpenAI. La empresa de inteligencia artificial solo mostró interés en una de ellas y no proporcionó ningún plan para restringir aún más el acceso.

Explorando el sandbox de ChatGPT

Mientras trabajaba en un proyecto de Python en ChatGPT, Figueroa recibió un error de "directorio no encontrado", lo que lo llevó a descubrir cuánto puede interactuar un usuario de ChatGPT con el sandbox.

Pronto, quedó claro que el entorno permitía un gran acceso al sandbox, lo que le permitía cargar y descargar archivos, enumerar archivos y carpetas, cargar programas y ejecutarlos, ejecutar comandos de Linux y generar archivos almacenados dentro del sandbox.

Mediante el uso de comandos como 'ls' o 'list files', el investigador pudo obtener una lista de todos los directorios del sistema de archivos sandbox subyacente, incluido '/home/sandbox/.openai_internal/', que contenía información de configuración e instalación.

Listado de archivos y carpetas en el sandbox de ChatGPT
(https://i.postimg.cc/3JJMn7tP/Files-and-folders-in-the-Chat-GPT-sandbox.png) (https://postimg.cc/nM5wL8bk)

A continuación, experimentó con tareas de gestión de archivos y descubrió que podía cargar archivos en la carpeta /mnt/data, así como descargar archivos desde cualquier carpeta a la que se pudiera acceder.

Cabe señalar que en los experimentos de BleepingComputer, el sandbox no proporciona acceso a carpetas y archivos confidenciales específicos, como la carpeta /root y varios archivos, como /etc/shadow.

Gran parte de este acceso al sandbox de ChatGPT ya se había revelado en el pasado, y otros investigadores encontraron formas similares de explorarlo.

Sin embargo, el investigador descubrió que también podía cargar scripts de Python personalizados y ejecutarlos dentro del sandbox. Por ejemplo, Figueroa cargó un script simple que muestra el texto "¡Hola, mundo!" y lo ejecutó, con el resultado apareciendo en la pantalla.

Ejecución de código Python en el sandbox. Fuente: Figueroa
(https://i.postimg.cc/pTt48t9c/Executing-Python-code.png) (https://postimg.cc/qtj1VSx2)

BleepingComputer también probó esta capacidad cargando un script de Python que buscaba recursivamente todos los archivos de texto en el sandbox.

Por razones legales, el investigador dice que no pudo cargar scripts "maliciosos" que pudieran usarse para intentar escapar del sandbox o realizar un comportamiento más malicioso.

Cabe señalar que, si bien todo lo anterior era posible, todas las acciones estaban confinadas dentro de los límites del sandbox, por lo que el entorno parece estar correctamente aislado, sin permitir un "escape" al sistema host.

Figueroa también descubrió que podía usar la ingeniería rápida para descargar el "libro de jugadas" de ChatGPT, que rige cómo se comporta y responde el chatbot en el modelo general o en los subprogramas creados por el usuario.

El investigador dice que el acceso al libro de jugadas ofrece transparencia y genera confianza con sus usuarios, ya que ilustra cómo se crean las respuestas; también podría usarse para revelar información que podría eludir las barreras de seguridad.

"Si bien la transparencia en las instrucciones es beneficiosa, también podría revelar cómo se estructuran las respuestas de un modelo, lo que potencialmente permitiría a los usuarios aplicar ingeniería inversa a las barreras de seguridad o inyectar mensajes maliciosos", explica Figueroa.

"Los modelos configurados con instrucciones confidenciales o datos sensibles podrían enfrentar riesgos si los usuarios explotan el acceso para recopilar configuraciones o información patentadas", continuó el investigador.

Acceder al manual de estrategias de ChatGPT. Fuente: Figueroa
(https://i.postimg.cc/W1BHLP7p/Accessing-the-Chat-GPT-playbook.png) (https://postimg.cc/NKx4mSVZ)

¿Vulnerabilidad o elección de diseño?

Si bien Figueroa demuestra que es posible interactuar con el entorno interno de ChatGPT, no surgen preocupaciones directas de seguridad o privacidad de datos a partir de estas interacciones.

El sandbox de OpenAI parece estar adecuadamente protegido y todas las acciones están restringidas al entorno sandbox.

Dicho esto, la posibilidad de interactuar con el sandbox podría ser el resultado de una elección de diseño de OpenAI.

Sin embargo, es poco probable que esto sea intencional, ya que permitir estas interacciones podría crear problemas funcionales para los usuarios, ya que el movimiento de archivos podría dañar el sandbox.

Además, acceder a los detalles de configuración podría permitir a los actores maliciosos comprender mejor cómo funciona la herramienta de IA y cómo eludir las defensas para que genere contenido peligroso.

El "manual de estrategias" incluye las instrucciones principales del modelo y cualquier regla personalizada incorporada en él, incluidos detalles propietarios y pautas relacionadas con la seguridad, lo que potencialmente abre un vector para la ingeniería inversa o ataques dirigidos.

BleepingComputer se comunicó con OpenAI el martes para comentar sobre estos hallazgos, y un portavoz nos dijo que están investigando los problemas.

Fuente:
BleepingComputer
https://www.bleepingcomputer.com/news/artificial-intelligence/chatgpt-allows-access-to-underlying-sandbox-os-playbook-data/

Underc0de

Foros Generales => Noticias Informáticas => Mensaje iniciado por: AXCESS en Noviembre 16, 2024, 02:04:17 AM