Microsoft lanza PyRIT, una herramienta de Red Teaming para IA generativa

Dragora · Febrero 23, 2024, 01:12:53 PM

Microsoft ha lanzado un marco de automatización de acceso abierto llamado PyRIT (abreviatura de Python Risk Identification Tool) para identificar de forma proactiva los riesgos en los sistemas de inteligencia artificial (IA) generativa.

La herramienta de red teaming está diseñada para "permitir que todas las organizaciones del mundo innoven de manera responsable con los últimos avances en inteligencia artificial", dijo Ram Shankar Siva Kumar, líder del equipo rojo de IA en Microsoft.

La compañía dijo que PyRIT podría usarse para evaluar la solidez de los puntos finales de los modelos de lenguaje grandes (LLM) contra diferentes categorías de daño, como la fabricación (por ejemplo, alucinación), el uso indebido (por ejemplo, sesgo) y el contenido prohibido (por ejemplo, acoso).

También se puede utilizar para identificar daños a la seguridad que van desde la generación de malware hasta el jailbreak, así como daños a la privacidad como el robo de identidad.

PyRIT viene con cinco interfaces: objetivo, conjuntos de datos, motor de puntuación, la capacidad de admitir múltiples estrategias de ataque e incorporar un componente de memoria que puede tomar la forma de JSON o una base de datos para almacenar las interacciones intermedias de entrada y salida.

El motor de puntuación también ofrece dos opciones diferentes para puntuar los resultados del sistema de IA de destino, lo que permite a los miembros del equipo rojo utilizar un clasificador de aprendizaje automático clásico o aprovechar un punto final de LLM para la autoevaluación.

"El objetivo es permitir a los investigadores tener una línea de base de qué tan bien está funcionando su modelo y todo el proceso de inferencia frente a diferentes categorías de daño y poder comparar esa línea de base con futuras iteraciones de su modelo", dijo Microsoft.

"Esto les permite tener datos empíricos sobre qué tan bien está funcionando su modelo hoy en día y detectar cualquier degradación del rendimiento en función de mejoras futuras".

Dicho esto, el gigante tecnológico se cuida de enfatizar que PyRIT no es un reemplazo para el equipo rojo manual de sistemas de IA generativa y que complementa la experiencia de dominio existente de un equipo rojo.

En otras palabras, la herramienta está destinada a resaltar los "puntos calientes" de riesgo mediante la generación de avisos que podrían usarse para evaluar el sistema de IA y señalar áreas que requieren más investigación.

Microsoft reconoció además que el equipo rojo de los sistemas de IA generativa requiere sondear simultáneamente tanto la seguridad como los riesgos responsables de la IA y que el ejercicio es más probabilístico, al tiempo que señala las grandes diferencias en las arquitecturas de los sistemas de IA generativa.

"El sondeo manual, aunque requiere mucho tiempo, a menudo es necesario para identificar posibles puntos ciegos", dijo Siva Kumar. "La automatización es necesaria para el escalado, pero no reemplaza el palpado manual".

El desarrollo se produce cuando Protect AI reveló múltiples vulnerabilidades críticas en plataformas populares de la cadena de suministro de IA, como ClearML, Hugging Face, MLflow y Triton Inference Server, que podrían resultar en la ejecución de código arbitrario y la divulgación de información confidencial.

Fuente: No tienes permitido ver los links. Registrarse o Entrar a mi cuenta

Microsoft lanza PyRIT, una herramienta de Red Teaming para IA generativa

Dragora

Febrero 23, 2024, 01:12:53 PM