Underc0de

Foros Generales => Noticias Informáticas => Mensaje iniciado por: AXCESS en Febrero 09, 2025, 09:43:45 PM

Título: Meta descargó casi 82 TB de libros pirateados para entrenamiento de IA
Publicado por: AXCESS en Febrero 09, 2025, 09:43:45 PM
(https://i.postimg.cc/mkqfyKzX/Mark-Zuckerberg.png) (https://postimg.cc/30gcKSZm)

La empresa matriz de Facebook, Meta, está actualmente luchando contra una demanda colectiva que alega violación de derechos de autor y competencia desleal, entre otros, con respecto a cómo entrenó a LLaMA.

Según una publicación de vx-underground en X (anteriormente Twitter), los registros judiciales revelan que la empresa de redes sociales utilizó torrents pirateados para descargar 81,7 TB de datos de bibliotecas paralelas, incluidas Anna's Archive, Z-Library y LibGen. Luego utilizó esta información para entrenar sus modelos de IA.

La evidencia, en forma de comunicación escrita, muestra las preocupaciones de los investigadores sobre el uso de materiales pirateados por parte de Meta.

Un investigador senior de IA dijo en octubre de 2022:
 
"No creo que debamos usar material pirateado. Realmente necesito poner un límite aquí".

Mientras que otro dijo:

"Usar material pirateado debería estar más allá de nuestro umbral ético", luego agregó: "SciHub, ResearchGate, LibGen son básicamente como PirateBay o algo así, están distribuyendo contenido que está protegido por derechos de autor y lo están infringiendo".

En enero de 2023, el propio Mark Zuckerberg asistió a una reunión en la que dijo:

"Tenemos que avanzar con esto... tenemos que encontrar una forma de desbloquear todo esto".
 
(https://i.postimg.cc/J4fCDVWt/Mark-Zuckerberg-and-a-Cat.png) (https://postimages.org/)

Unos tres meses después, un empleado de Meta envió un mensaje a otro diciendo que les preocupaba que las direcciones IP de Meta se utilizaran "para descargar contenido pirata".

También añadieron: "No me parece bien descargar torrents desde un portátil de empresa", seguido de un emoji de risa a carcajadas.

Además de esos mensajes, los documentos también revelaron que la empresa tomó medidas para que su infraestructura no se utilizara en estas operaciones de descarga y distribución, de modo que la actividad no pudiera rastrearse hasta Meta. Los documentos judiciales dicen que esto constituye una prueba de la actividad ilegal de Meta, que parece estar tomando medidas deliberadas para eludir las leyes de derechos de autor.

Sin embargo, esta no es la primera vez que se acusa a un modelo de entrenamiento de IA de robar información de Internet.

OpenAI ha sido demandada por novelistas desde junio de 2023 por usar sus libros para entrenar sus grandes modelos de lenguaje, y The New York Times siguió su ejemplo en diciembre.

Nvidia también ha sido objeto de una demanda presentada por escritores por usar 196.640 libros para entrenar su modelo NeMo, que desde entonces ha sido retirado. Un ex empleado de Nvidia denunció a la empresa en agosto del año pasado, diciendo que extraía más de 426 mil horas de vídeos al día para su uso en el entrenamiento de IA. Más recientemente, OpenAI está investigando si DeepSeek obtuvo ilegalmente datos de ChatGPT, lo que demuestra lo irónico que pueden ser las cosas.

El caso contra Meta todavía está en curso, por lo que tendremos que esperar hasta que el tribunal publique su decisión para decir si la empresa cometió una infracción directa. E incluso si los escritores ganan este caso, Meta, con su enorme fondo financiero, probablemente apelará la decisión, lo que significa que tendremos que esperar varios meses, sino años, para ver la sentencia judicial final.

Fuente:
Tom´s Hardware
https://www.tomshardware.com/tech-industry/artificial-intelligence/meta-staff-torrented-nearly-82tb-of-pirated-books-for-ai-training-court-records-reveal-copyright-violations