Videos generados por IA ahora son posibles con GPU para juegos con solo 6 GB

Iniciado por AXCESS, Abril 19, 2025, 06:50:48 PM

Tema anterior - Siguiente tema

0 Miembros y 1 Visitante están viendo este tema.

No tienes permitido ver enlaces. Registrate o Entra a tu cuenta

Lvmin Zhang, de GitHub, en colaboración con Maneesh Agrawala de la Universidad de Stanford, presentó FramePack esta semana.
 
No tienes permitido ver enlaces. Registrate o Entra a tu cuenta

FramePack ofrece una implementación práctica de la difusión de vídeo mediante un contexto temporal de duración fija para un procesamiento más eficiente, lo que permite vídeos más largos y de mayor calidad. Un modelo de 13 000 millones de parámetros, construido con la arquitectura FramePack, puede generar un clip de 60 segundos con tan solo 6 GB de memoria de vídeo.

FramePack es una arquitectura de red neuronal que utiliza técnicas de optimización multietapa para permitir la generación local de vídeo con IA. Al momento de redactar este artículo, se afirma que la interfaz gráfica de usuario de FramePack ejecuta internamente un modelo personalizado basado en Hunyuan, aunque el artículo de investigación menciona que los modelos preentrenados existentes pueden ajustarse con FramePack.

Los modelos de difusión típicos procesan datos de fotogramas con ruido generados previamente para predecir el siguiente fotograma, ligeramente menos ruidoso. El número de fotogramas de entrada considerados para cada predicción se denomina longitud del contexto temporal, que aumenta con el tamaño del vídeo. Los modelos de difusión de vídeo estándar requieren una gran cantidad de VRAM, siendo 12 GB un punto de partida habitual. Claro, puedes arreglártelas con menos memoria, pero eso implica clips más cortos, menor calidad y tiempos de procesamiento más largos.

Presentamos FramePack: una nueva arquitectura que comprime los fotogramas de entrada, según su importancia, en una longitud de contexto fija, lo que reduce drásticamente la sobrecarga de memoria de la GPU. Todos los fotogramas deben comprimirse para converger en un límite superior deseado para la longitud del contexto. Los autores describen los costes computacionales como similares a la difusión de imágenes.

Junto con técnicas para mitigar la "deriva", donde la calidad se degrada con la duración del video, FramePack ofrece una generación de video más larga sin comprometer significativamente la fidelidad. Actualmente, FramePack requiere una GPU de la serie RTX 30/40/50 compatible con los formatos de datos FP16 y BF16. No se ha verificado la compatibilidad con Turing ni con arquitecturas anteriores, y no se menciona el hardware AMD/Intel. Linux también se encuentra entre los sistemas operativos compatibles.

Además de la RTX 3050 de 4 GB, la mayoría de las GPU modernas (RTX) cumplen o superan los criterios de 6 GB. En términos de velocidad, una RTX 4090 puede generar hasta 0,6 fotogramas por segundo (optimizada con Teacache), por lo que el rendimiento variará según la tarjeta gráfica. En cualquier caso, cada fotograma se mostrará tras su generación, lo que proporciona una respuesta visual inmediata.

El modelo utilizado probablemente tenga un límite de 30 FPS, lo que podría ser una limitación para muchos usuarios. Dicho esto, en lugar de depender de costosos servicios de terceros, FramePack está allanando el camino para que la generación de videos con IA sea más accesible para el consumidor promedio. Incluso si no eres creador de contenido, esta es una herramienta entretenida para crear GIF, memes y demás.

Fuente:
Tom´s Hardware
No tienes permitido ver enlaces. Registrate o Entra a tu cuenta

No tienes permitido ver enlaces. Registrate o Entra a tu cuenta