Los datos de entrenamiento de DeepSeek contienen 12 000 credenciales activas

Iniciado por AXCESS, Marzo 04, 2025, 10:58:30 PM

Tema anterior - Siguiente tema

0 Miembros y 1 Visitante están viendo este tema.



Los investigadores de seguridad han analizado un conjunto de datos masivo utilizado para entrenar a DeepSeek y otros modelos de IA y han encontrado casi 12.000 credenciales secretas activas, lo que expone sus respectivos servicios.

Los secretos "activos" se refieren a claves API, contraseñas y otras credenciales que se autentican correctamente con sus respectivos servicios.

Truffle Security, una empresa de software de seguridad de código abierto, dijo que encontró la asombrosa cantidad de 11.908 secretos activos en el archivo Common Crawl. Este conjunto de datos de 400 terabytes contiene instantáneas de sitios web de 47,5 millones de hosts en 38,3 millones de dominios registrados y representa una amplia muestra representativa de Internet.

Se encontraron secretos activos en casi tres millones de sitios web, lo que significa que muchos sitios web reutilizan los mismos secretos.

"En un caso extremo, una sola clave API de WalkScore apareció 57.029 veces en 1.871 subdominios", dijo Truffle Security en un informe.

La empresa explica que los desarrolladores exponen secretos al codificarlos en el HTML y Javascript del front-end en páginas web que no controlan. No es culpa de las organizaciones ni de los rastreadores, a quienes no se les debería encomendar la tarea de redactar los datos de rastreo utilizados por los investigadores.

Sin embargo, cuando estos datos son ingeridos por los grandes modelos de lenguaje (LLM), la exposición "probablemente contribuye a que los LLM sugieran secretos codificados".

Los investigadores también destacaron los riesgos de que los modelos de IA entrenados en código inseguro puedan reproducir prácticas inseguras. Por ejemplo, pueden sugerir la codificación de credenciales, poniendo en riesgo a las organizaciones.

"Los LLM populares, incluido DeepSeek, se entrenan en Common Crawl, un conjunto de datos masivo que contiene instantáneas de sitios web. Dada nuestra experiencia al encontrar secretos expuestos en Internet pública, sospechamos que las credenciales codificadas podrían estar presentes en los datos de entrenamiento, lo que podría influir en el comportamiento del modelo", dijeron los investigadores.

Los resultados del modelo se moldean aún más mediante otros conjuntos de datos de entrenamiento, ajustes, técnicas de alineación y contexto de aviso.

La empresa probó previamente 10 LLM y demostró que la mayoría recomienda codificar de forma rígida las claves API y las contraseñas, incluidas herramientas para desarrolladores como VS Code, ChatGPT y otros asistentes de codificación de IA ampliamente utilizados.

"¿El riesgo real? Los programadores inexpertos (y no) podrían seguir este consejo ciegamente, sin darse cuenta de que están introduciendo fallas de seguridad importantes", explicaron los investigadores.

Truffle Security dijo que se comunicaron con los proveedores cuyos usuarios se vieron más afectados por los secretos expuestos y trabajaron con ellos para revocar las claves activas, lo que ayudó a rotar "varios miles de claves".

Entre los 219 tipos distintivos de secretos descubiertos, la filtración más frecuente fueron las claves API de MailChimp, que los atacantes pueden explotar en campañas de phishing, exfiltración de datos y suplantación de marca. Algunos sitios web expusieron claves raíz de AWS y una página web incluía 17 webhooks de Slack activos.

Los investigadores sugieren que los desarrolladores incluyan reglas estrictas en sus mensajes de IA para no sugerir nunca credenciales codificadas ni otros patrones de código inseguros. Los desarrolladores también deberían escanear su código y sitios web públicos en busca de claves expuestas.

Fuente:
CyberNews
No tienes permitido ver enlaces. Registrate o Entra a tu cuenta
No tienes permitido ver enlaces. Registrate o Entra a tu cuenta