(https://i.imgur.com/iJh5dVX.jpeg)
Microsoft ha rechazado recientemente las afirmaciones de que múltiples problemas relacionados con inyección de prompts, bypass de controles y comportamientos del sandbox en su asistente de inteligencia artificial Copilot constituyan vulnerabilidades de seguridad. La postura de la compañía ha generado un intenso debate dentro de la comunidad de ciberseguridad y pone de relieve una creciente brecha conceptual entre investigadores independientes y grandes proveedores tecnológicos a la hora de definir qué representa un riesgo real en los sistemas de IA generativa.
El ingeniero de ciberseguridad John Russell afirmó públicamente haber identificado cuatro vulnerabilidades distintas en Microsoft Copilot, las cuales fueron posteriormente descartadas por la empresa por no cumplir con sus criterios de reparabilidad. "El mes pasado descubrí cuatro vulnerabilidades en Microsoft Copilot. Desde entonces han cerrado mis casos alegando que no califican para la capacidad de mantenimiento", publicó Russell en LinkedIn.
Los problemas técnicos reportados en CopilotSegún Russell, los hallazgos descartados por Microsoft incluyen una serie de comportamientos que, desde su perspectiva, exponen debilidades estructurales en los mecanismos de protección del asistente de IA. Entre ellos destacan:
- Inyección directa e indirecta de prompts, capaz de provocar la divulgación inmediata del prompt del sistema
- Bypass de la política de tipos de archivos, mediante la codificación en Base64
- Ejecución de comandos dentro del entorno Linux aislado de Copilot
Uno de los puntos más relevantes es el relacionado con la restricción de subida de archivos. Copilot, de forma predeterminada, bloquea la carga de formatos considerados peligrosos. Sin embargo, Russell demostró que estos archivos pueden codificarse como texto Base64, enviarse como archivos aparentemente inofensivos y luego reconstruirse dentro de la sesión, eludiendo por completo los controles iniciales.
Citar"Una vez enviado como archivo de texto plano, el contenido pasa las comprobaciones de tipo de archivo, se decodifica dentro de la sesión y el archivo reconstruido se analiza posteriormente, eludiendo efectivamente la política de subida", explicó el investigador.
¿Vulnerabilidades reales o limitaciones conocidas de la IA?La publicación de Russell generó un amplio debate en la comunidad de seguridad. Algunos expertos respaldaron sus conclusiones, señalando que la inyección de prompts encubiertos es un riesgo real, especialmente cuando se combina con procesamiento de documentos.
Raj Marathe, profesional experimentado en ciberseguridad, recordó un caso similar: "El año pasado presencié una demostración donde una inyección prompt estaba oculta dentro de un documento Word subido a Copilot. Cuando el sistema leyó el archivo, el comportamiento se volvió errático y terminó bloqueando al usuario".
No obstante, otros investigadores cuestionaron si estos comportamientos deben clasificarse como vulnerabilidades explotables. Cameron Criswell, investigador de seguridad, argumentó que estos problemas son bien conocidos en los grandes modelos de lenguaje y difíciles de erradicar sin afectar su funcionalidad.
"Los LLM aún no pueden separar de forma fiable los datos de las instrucciones. Eliminar por completo este comportamiento significaría eliminar gran parte de su utilidad", explicó Criswell.
Desde esta perspectiva, la inyección prompt no sería una falla puntual, sino una limitación inherente a la arquitectura de los modelos de lenguaje, que pueden interpretar datos como instrucciones si estas se presentan de forma suficientemente creativa.
El papel de los prompts del sistema y OWASP GenAIUn prompt del sistema es el conjunto de instrucciones ocultas que define cómo debe comportarse un asistente de IA. Si estos prompts están mal diseñados o contienen lógica sensible, pueden convertirse en un vector de ataque indirecto.
El proyecto OWASP GenAI adopta una postura más matizada y evita clasificar automáticamente la filtración de prompts como una vulnerabilidad. Según OWASP, el riesgo real aparece cuando los prompts contienen datos sensibles, reglas de seguridad o controles de privilegios.
Citar"En resumen, la divulgación del prompt del sistema en sí misma no representa el riesgo real. El problema surge cuando permite la divulgación de información sensible, elusión de controles o separación indebida de privilegios", señala OWASP.
Incluso sin conocer la redacción exacta de los prompts, los atacantes pueden inferir restricciones y reglas internas simplemente interactuando con el sistema y observando sus respuestas, lo que reduce la efectividad de ocultarlos como única medida de seguridad.
La postura oficial de MicrosoftMicrosoft afirma que todos los informes relacionados con IA son evaluados de acuerdo con su política pública de clasificación de vulnerabilidades. Un portavoz de la compañía explicó que los reportes de Russell fueron revisados, pero no cumplieron los criterios necesarios para ser considerados vulnerabilidades reparables.
"Algunos casos quedan fuera de alcance cuando no se cruza un límite de seguridad, cuando el impacto se limita al entorno del usuario que realiza la solicitud o cuando solo se divulga información de bajo privilegio", indicó la empresa.
Desde la perspectiva de Microsoft, los problemas reportados representan comportamientos esperados o limitaciones conocidas, siempre que no deriven en accesos no autorizados, escaladas de privilegios o exfiltración de datos entre usuarios o sistemas.
Una brecha que seguirá creciendoEn última instancia, la controversia revela una brecha conceptual cada vez más profunda entre investigadores de seguridad y proveedores de IA. Mientras los primeros advierten sobre riesgos emergentes y vectores de abuso, las empresas tienden a evaluar los problemas bajo modelos tradicionales de límites de seguridad, que no siempre encajan con la naturaleza probabilística de la IA generativa.
A medida que herramientas como Copilot se integran en entornos empresariales, flujos de trabajo críticos y sistemas con datos sensibles, esta diferencia en la definición de riesgo probablemente seguirá siendo una fuente recurrente de fricción.
El debate no gira únicamente en torno a si la inyección prompt es una vulnerabilidad hoy, sino a cómo debe redefinirse la seguridad en la era de la IA, donde los fallos no siempre se manifiestan como exploits clásicos, pero pueden tener impactos significativos en confidencialidad, integridad y confianza.
Fuente: https://www.bleepingcomputer.com/