Underc0de - La Casa de los Informáticos

Foros Generales => Noticias Informáticas => Mensaje iniciado por: Dragora en Febrero 04, 2026, 06:43:05 PM

Título: Microsoft crea un escáner para detectar puertas traseras en modelos de IA
Publicado por: Dragora en Febrero 04, 2026, 06:43:05 PM
(https://i.imgur.com/IkBY9n2.jpeg)

Microsoft ha anunciado el desarrollo de un escáner ligero capaz de detectar puertas traseras en modelos de lenguaje grandes (LLMs) de peso abierto, un avance significativo en un contexto donde la seguridad de la inteligencia artificial se ha convertido en una prioridad crítica para empresas, gobiernos y desarrolladores. La compañía asegura que esta nueva herramienta permite identificar modelos envenenados con alta fiabilidad y una baja tasa de falsos positivos, mejorando sustancialmente la confianza en los sistemas de IA modernos.

El anuncio fue realizado por el equipo de AI Security de Microsoft, que explicó que el escáner se basa en tres señales observables clave relacionadas con el comportamiento interno del modelo cuando se activan determinados disparadores maliciosos. Según Blake Bullwinkel y Giorgio Severi, investigadores de seguridad de la compañía, estas señales ofrecen una base "técnicamente robusta y operativamente significativa" para la detección de puertas traseras en LLMs.

El problema de las puertas traseras en modelos de IA

Los modelos de lenguaje a gran escala pueden ser manipulados de varias formas. Microsoft distingue principalmente dos superficies de ataque:


Uno de los ataques más peligrosos es el envenenamiento del modelo, una técnica en la que un actor malicioso introduce comportamientos ocultos directamente en los pesos durante el proceso de entrenamiento. El resultado es un modelo con puerta trasera que funciona de manera normal en la mayoría de los escenarios, pero que ejecuta acciones no previstas cuando detecta un disparador específico.

Este tipo de modelos son conocidos como "agentes durmientes", ya que el comportamiento malicioso permanece latente hasta que se activa bajo condiciones muy concretas. Esto convierte al envenenamiento de modelos en un ataque altamente sigiloso, difícil de detectar mediante pruebas tradicionales.

Tres señales clave para identificar modelos envenenados

El estudio de Microsoft identifica tres indicadores prácticos que pueden revelar la presencia de una puerta trasera en un LLM:


Según la compañía, estos indicadores se refuerzan mutuamente y permiten detectar puertas traseras sin necesidad de conocer previamente el comportamiento malicioso exacto.

Cómo funciona el escáner de Microsoft

El escáner desarrollado por Microsoft sigue un enfoque innovador y eficiente. En primer lugar, extrae contenido memorizado del modelo, analizando las salidas para identificar subcadenas sospechosas. Posteriormente, estas señales se formalizan como funciones de pérdida, que puntúan cada fragmento según su probabilidad de actuar como disparador.

El resultado final es una lista ordenada de posibles triggers, lo que permite a los analistas de seguridad evaluar rápidamente si un modelo ha sido comprometido.

Uno de los aspectos más relevantes de esta metodología es que:


Esto la convierte en una solución especialmente atractiva para organizaciones que trabajan con modelos open-weight o que integran LLMs de terceros en sus sistemas.

Limitaciones y alcance real

Microsoft advierte que el escáner no es una solución universal. Presenta varias limitaciones importantes:


Aun así, los investigadores consideran este avance como un paso clave hacia una detección práctica y desplegable de puertas traseras en IA, destacando la importancia de la colaboración entre actores de la comunidad de seguridad.

Seguridad de IA y evolución del Secure Development Lifecycle

Este desarrollo coincide con la ampliación del Secure Development Lifecycle (SDL) de Microsoft para abordar amenazas específicas de la inteligencia artificial. La compañía está adaptando sus procesos para mitigar riesgos como:


Según Yonatan Zunger, vicepresidente corporativo y subdirector de seguridad de IA, los sistemas de inteligencia artificial rompen las fronteras tradicionales de confianza asumidas por el SDL clásico.

Citar"A diferencia de los sistemas tradicionales, la IA introduce múltiples puntos de entrada para entradas inseguras, desde prompts hasta actualizaciones de modelos, lo que dificulta aplicar límites claros de seguridad."

Este cambio de paradigma obliga a replantear cómo se diseñan, entrenan y despliegan los sistemas de IA a gran escala.

Un paso clave hacia la confianza en la IA

La aparición de herramientas como este escáner refuerza la idea de que la seguridad en inteligencia artificial no puede ser reactiva, sino que debe integrarse desde el diseño. A medida que los LLMs se convierten en componentes críticos de productos y servicios, detectar puertas traseras y modelos envenenados será esencial para proteger datos, procesos y decisiones automatizadas.

Fuente: https://thehackernews.com/