Anthropic quería escanear y acto seguido destruir en secreto millones de libros para entrenar su IA. No ha sido tan secreto

Anthropic quería escanear y acto seguido destruir en secreto millones de libros para entrenar su IA. No ha sido tan secreto

Un modelo de lenguaje para IA necesita información si se quiere entrenar para que sea más preciso y efectivo. El tema es cómo se obtiene la información y si existe una manera ética de hacerlo que le salga rentable a la tecnológica de turno. No hay duda de que la opción preferida de las empresas ha sido utilizar todo contenido posible físico y digital sin permiso de nadie. También hay pruebas.

Una filtración judicial desvela que Anthropic invirtió decenas de millones de dólares en adquirir y digitalizar obras literarias sin permiso de los autores. Según cuenta el Washington Post, el proyecto, llamado internamente "Panama", formaba parte de una carrera frenética entre las grandes tecnológicas por acumular datos masivos para entrenar sus modelos de inteligencia artificial.

Cómo empezó todo. El Proyecto Panama se puso en marcha por Anthropic a principios de 2024. Según documentos internos revelados por el Washington Post, el objetivo era "escanear destructivamente todos los libros del mundo". Además, en estos documentos también se refleja explícitamente que la empresa no quería que nadie supiese que estaban trabajando en ello.

En aproximadamente un año, la empresa gastó decenas de millones de dólares en comprar millones de libros, cortándoles el lomo con máquinas hidráulicas y escaneando sus páginas para alimentar los modelos de IA que impulsan Claude, su chatbot estrella. Según contaba el medio, los libros, una vez digitalizados, acababan siendo reciclados.

Por qué ha salido a la luz. Los detalles del proyecto han quedado al descubierto en una demanda por infracción de derechos de autor presentada por autores literarios contra Anthropic. Aunque la empresa acordó pagar 1.500 millones de dólares para cerrar el caso en agosto de 2025, un juez de distrito decidió hacer públicos más de 4.000 páginas de documentos internos la semana pasada, exponiendo toda la operación.

No son los únicos. Los documentos judiciales revelan que otras tecnológicas como Meta, Google y OpenAI también habían participado en esta carrera por obtener información masiva para entrenar sus modelos. Según revelaba el medio a partir de los documentos, un cofundador de Anthropic teorizaba en enero de 2023 que entrenar modelos de IA con libros podría enseñarles "cómo escribir bien" en lugar de imitar "la jerga de internet de baja calidad".

Por otro lado, un email interno de Meta de 2024 describía el acceso a una biblioteca digital de libros como "esencial" para ser competitivo frente a sus rivales en la carrera por dominar la IA. Sin embargo, los documentos desvelados por el medio también demuestran cómo empleados de Meta expresaron preocupación en varias ocasiones sobre la legalidad de descargar millones de libros sin permiso. Un email interno de diciembre de 2023 indica que la práctica había sido aprobada tras haber sido "escalada a MZ", aparentemente haciendo referencia al CEO, Mark Zuckerberg.

Según los registros judiciales a los que ha tenido acceso el medio, las compañías no consideraron “práctico” obtener permiso directo de editoriales y autores. En su lugar, encontraron formas de adquirir libros masivamente sin el conocimiento de los escritores, incluyendo la descarga de copias sin autorización desde sitios de terceros.

Registros de chat de abril de 2024 muestran a un empleado preguntando por qué usaban servidores alquilados a Amazon para descargar torrents en lugar de los propios de Facebook. La respuesta: "Evitar el riesgo de rastrear" la actividad hasta la compañía.

Torrente de datos. Los documentos a los que ha tenido acceso el Washington Post también prueban que Ben Mann, cofundador de Anthropic, descargó personalmente durante 11 días en junio de 2021 una colección de libros desde LibGen, una gigantesca biblioteca con contenido protegido por derechos de autor. El medio revelaba además que, un año después, en julio de 2022, Mann celebró el lanzamiento del sitio web ‘Pirate Library Mirror’, que presume de una base de datos masiva de libros y declara abiertamente violar las leyes de copyright. "¡¡¡Justo a tiempo!!!", escribía Mann a otros empleados de Anthropic, según apunta el medio.

Anthropic declaró en documentos legales que nunca entrenó un modelo comercial que generara ingresos usando datos de LibGen ni utilizó Pirate Library Mirror para entrenar ningún modelo completo.

La solución legal de Anthropic. Según apunta el medio en su artículo, ante el riesgo legal, Anthropic cambió de estrategia. La empresa contrató a Tom Turvey, veterano de Silicon Valley que había ayudado a crear el proyecto Google Books dos décadas antes. Bajo su dirección, Anthropic consideró comprar libros de bibliotecas o librerías de segunda mano, incluida la emblemática librería Strand de Nueva York.

La compañía finalmente acabó comprando millones de libros y apilándolos en un gigantesco almacén, a menudo en lotes de decenas de miles, según las presentaciones judiciales. El Washington Post asegura además que la compañía trabajó con vendedores de libros usados del Reino Unido. Una propuesta de proyecto menciona que Anthropic buscaba "convertir entre 500.000 y dos millones de libros en un período de seis meses".

Qué dice la ley. La mayoría de los casos legales contra empresas de IA siguen en curso, pero el medio menciona dos fallos judiciales que han considerado que el uso de libros para entrenar modelos de IA sin permiso del autor o editor puede ser legal bajo la doctrina de "uso legítimo" del derecho de autor.

En junio de 2025, el juez de distrito William Alsup determinó que Anthropic tenía derecho a usar libros para entrenar modelos de IA porque los procesan de forma "transformadora". Comparó el proceso con profesores "enseñando a escolares a escribir bien". Ese mismo mes, el juez Vince Chhabria dictaminó en el caso de Meta que los autores no habían demostrado que los modelos de IA de la compañía pudieran perjudicar las ventas de sus libros.

En el caso de Anthropic, el proyecto de escaneo de libros físicos fue considerado legal, pero el juez determinó que la compañía pudo haber infringido derechos de autor al descargar millones de libros sin autorización antes de lanzar el Proyecto Panama.

El acuerdo final. En lugar de enfrentarse a un juicio, Anthropic acordó pagar 1.500 millones de dólares a editoriales y autores sin admitir culpabilidad. Según apunta el medio, los autores cuyos libros fueron descargados pueden reclamar su parte del acuerdo, estimada en unos 3.000 dólares por título.

Imagen de portada | Emil Widlund y Anthropic

En Xataka | Si la IA nos va a dejar sin trabajo, en Reino Unido ya están discutiendo en serio la solución: una renta básica universal

-
La noticia Anthropic quería escanear y acto seguido destruir en secreto millones de libros para entrenar su IA. No ha sido tan secreto fue publicada originalmente en Xataka por Antonio Vallejo .




Fuente: Xataka
Enlace: Anthropic quería escanear y acto seguido destruir en secreto millones de libros para entrenar su IA. No ha sido tan secreto

Comentarios