Bleeding Llama: vulnerabilidad crítica afecta a Ollama

Iniciado por Dragora, Mayo 11, 2026, 09:27:11 PM

Tema anterior - Siguiente tema

0 Miembros y 2 Visitantes están viendo este tema.


Investigadores en ciberseguridad han descubierto una vulnerabilidad crítica en Ollama que podría permitir a atacantes remotos y no autenticados extraer información sensible directamente desde la memoria del proceso. El fallo, identificado como CVE-2026-7482 y bautizado como "Bleeding Llama", representa una seria amenaza para organizaciones y desarrolladores que ejecutan modelos de inteligencia artificial localmente.

La vulnerabilidad fue revelada por Cyera y afecta potencialmente a más de 300.000 servidores expuestos a internet en todo el mundo. El problema posee una puntuación CVSS de 9.1, considerada crítica, debido al alto impacto y facilidad relativa de explotación.

Además del fallo principal, investigadores también identificaron dos vulnerabilidades adicionales en el mecanismo de actualización de Windows de Ollama que pueden derivar en ejecución persistente de código malicioso.

Qué es Ollama y por qué es tan utilizado

Ollama se ha convertido en una de las plataformas de código abierto más populares para ejecutar grandes modelos de lenguaje (LLM) localmente, sin depender de servicios en la nube.

El proyecto cuenta con más de 171.000 estrellas en GitHub y es ampliamente utilizado por desarrolladores, investigadores y empresas para ejecutar modelos de IA privados en infraestructuras locales.

La herramienta permite trabajar con modelos de inteligencia artificial utilizando el formato GGUF (GPT-Generated Unified Format), diseñado para almacenar y ejecutar LLMs eficientemente en equipos locales.

Sin embargo, precisamente este mecanismo de carga de modelos es el origen de la nueva vulnerabilidad crítica.

Qué es Bleeding Llama y cómo funciona el ataque

La vulnerabilidad CVE-2026-7482 se origina en una falla de lectura fuera de límites (out-of-bounds read) dentro del cargador de modelos GGUF de Ollama.

El problema ocurre específicamente durante el procesamiento de archivos GGUF manipulados que contienen tamaños y desplazamientos de tensor falsificados.

Cuando el servidor procesa uno de estos archivos utilizando el endpoint "/api/create", Ollama realiza lecturas más allá del búfer de memoria asignado, permitiendo filtrar información sensible almacenada en el heap del proceso.

El fallo se encuentra relacionado con el uso inseguro de operaciones de memoria dentro de la función "WriteTo()", ubicada en:

  • fs/ggml/gguf.go
  • server/quantization.go

Esto permite eludir las protecciones normales de seguridad de memoria del lenguaje de programación utilizado por Ollama.

Qué información puede robar un atacante

Según los investigadores de Cyera, la explotación exitosa de Bleeding Llama puede permitir la extracción de prácticamente cualquier dato presente en la memoria del servidor Ollama.

Entre los datos comprometidos potencialmente se incluyen:

  • Claves API
  • Variables de entorno
  • Prompts del sistema
  • Conversaciones activas de usuarios
  • Código propietario
  • Contratos empresariales
  • Resultados de herramientas conectadas
  • Tokens de autenticación

El riesgo aumenta considerablemente cuando Ollama está integrado con herramientas externas de IA como Anthropic Claude Code u otros entornos automatizados de desarrollo.

Cyera advirtió que toda la información procesada por estas herramientas puede terminar temporalmente almacenada en memoria y posteriormente ser robada por un atacante.

Cadena completa de explotación de Bleeding Llama

Los investigadores explicaron que el ataque se desarrolla en tres pasos principales:

1. Carga del archivo GGUF malicioso

El atacante envía un archivo GGUF especialmente manipulado mediante una solicitud HTTP POST hacia un servidor Ollama accesible desde internet.

El archivo contiene estructuras tensoriales infladas diseñadas para desencadenar la lectura fuera de límites.

2. Activación mediante /api/create

El atacante utiliza el endpoint "/api/create" para obligar a Ollama a procesar el modelo malicioso.

Durante la cuantización y creación del modelo, el servidor comienza a leer datos fuera del búfer asignado en memoria.

3. Exfiltración de datos usando /api/push

Finalmente, el atacante utiliza el endpoint "/api/push" para subir el artefacto generado hacia un registro externo controlado por él mismo, permitiendo exfiltrar silenciosamente los datos robados.

Este método convierte la propia funcionalidad legítima de Ollama en un mecanismo de robo de información.

Vulnerabilidades adicionales permiten ejecución persistente de código

Mientras se analizaba Bleeding Llama, investigadores de Striga revelaron dos vulnerabilidades adicionales que afectan al sistema de actualizaciones de Ollama para Windows.

Los fallos continúan sin parchearse tras más de 90 días desde su divulgación inicial.

Las vulnerabilidades identificadas son:

  • CVE-2026-42248
  • CVE-2026-42249

Ambas poseen una puntuación CVSS de 7.7 y pueden encadenarse para lograr ejecución persistente de código malicioso en equipos Windows.

Cómo funcionan los fallos de actualización de Windows

El cliente de Ollama para Windows realiza verificaciones automáticas de actualización mediante el endpoint "/api/update".

El problema principal es que:

  • No valida correctamente firmas digitales de actualizaciones
  • Permite manipular rutas de archivos usando encabezados HTTP no sanitizados

Esto posibilita que un atacante suministre ejecutables arbitrarios y los escriba directamente en la carpeta de inicio automático de Windows.

Posteriormente, cada vez que el usuario inicia sesión, Windows ejecuta silenciosamente el malware con los privilegios del usuario afectado.

Ejecución persistente y malware silencioso

Los investigadores explicaron que la combinación de ambas vulnerabilidades permite:

  • Instalar reverse shells
  • Robar claves SSH
  • Extraer secretos del navegador
  • Instalar infostealers
  • Mantener persistencia silenciosa

El ataque es especialmente peligroso porque utiliza mecanismos legítimos del propio actualizador de Ollama y no requiere vulnerar firmas digitales en Windows.

Además, la persistencia se mantiene incluso después de reinicios del sistema.

Versiones vulnerables de Ollama

Según CERT Polska, las versiones afectadas incluyen:

  • Ollama 0.12.10 a 0.17.5 para los fallos de actualización
  • Ollama anteriores a 0.17.1 para Bleeding Llama

Sin embargo, investigadores indicaron que otras ramas posteriores podrían seguir siendo vulnerables dependiendo de la configuración utilizada.

Riesgos para empresas y entornos de IA

El descubrimiento de Bleeding Llama demuestra los nuevos riesgos asociados a plataformas de inteligencia artificial ejecutadas localmente.

Muchas organizaciones utilizan Ollama para:

  • Procesar información confidencial
  • Ejecutar asistentes corporativos privados
  • Automatizar desarrollo de software
  • Analizar documentos internos
  • Conectar herramientas de IA con sistemas empresariales

La exposición de estas instancias a internet puede convertirlas en objetivos extremadamente valiosos para ciberdelincuentes y actores de espionaje.

Cómo proteger servidores Ollama

Los expertos recomiendan implementar varias medidas de mitigación inmediatamente:

  • Actualizar Ollama a las versiones corregidas
  • Restringir acceso externo mediante firewall
  • No exponer instancias directamente a internet
  • Implementar proxies de autenticación
  • Utilizar gateways API seguros
  • Auditar servidores accesibles públicamente
  • Desactivar actualizaciones automáticas en Windows
  • Eliminar accesos directos de Ollama en la carpeta Inicio

También se recomienda monitorear continuamente la actividad de endpoints como:

  • /api/create
  • /api/push
  • /api/update

Bleeding Llama evidencia nuevos riesgos en la seguridad de IA

La vulnerabilidad Bleeding Llama pone de manifiesto cómo las plataformas de inteligencia artificial se están convirtiendo rápidamente en objetivos prioritarios para ataques avanzados.

El crecimiento explosivo de herramientas como Ollama está llevando a muchas organizaciones a desplegar infraestructuras de IA sin aplicar todavía controles de seguridad adecuados.

La combinación de procesamiento de datos sensibles, acceso a claves API y capacidades automatizadas convierte a los servidores de inferencia de IA en blancos altamente atractivos para actores maliciosos.

Además, el descubrimiento de múltiples vulnerabilidades simultáneas en Ollama evidencia que muchas plataformas emergentes de inteligencia artificial aún enfrentan desafíos importantes en términos de seguridad, autenticación y validación de actualizaciones.

Fuente: You are not allowed to view links. You are not allowed to view links. Register or Login or You are not allowed to view links. Register or Login