Inteligencia artificial

El costo oculto de entrenar la IA: millones de libros terminan destruidos

Un informe de A24 expuso cómo las grandes empresas tecnológicas buscan nuevas fuentes de datos para alimentar sus modelos, en medio del debate por derechos de autor y patrimonio bibliográfico.

El costo oculto de entrenar la IA expuesto en un informe sobre libros físicos destruidos para alimentar modelos.
Maia Jastreblansky presentó en A24 un informe sobre cómo las empresas de inteligencia artificial utilizan millones de libros para entrenar sus modelos.

El costo oculto de entrenar la IA empieza a mostrar una dimensión inesperada: millones de libros físicos son comprados por empresas tecnológicas, escaneados para alimentar modelos de inteligencia artificial y luego destruidos durante el proceso de digitalización.

El informe fue presentado por Maia Jastreblansky en A24, a partir de investigaciones internacionales que revelaron cómo distintas compañías del sector comenzaron a buscar nuevas fuentes de información ante el agotamiento del contenido disponible en internet.

Libros físicos, datos y derechos de autor

Según explicó Jastreblansky, las empresas de inteligencia artificial se enfrentan a un límite conocido como “data wall”: buena parte del material disponible online ya fue incorporado por los modelos y, para mejorar su capacidad de escritura y respuesta, necesitan acceder a textos de mayor calidad.

En ese contexto, el informe mencionó el caso de libreros de Barcelona que detectaron compras masivas de ejemplares antiguos, especialmente libros de no ficción escritos en catalán. Los envíos, según la investigación citada, tenían como destino Silicon Valley.

La práctica genera debate porque el proceso de escaneo requiere desmontar los libros, romper sus lomos y destruir los ejemplares físicos, que luego terminan reciclados como papel. El problema ya no se limita al uso de contenidos para entrenar modelos, sino también a la posible pérdida de patrimonio bibliográfico.

El Proyecto Panamá y el caso Anthropic

El informe también repasó una investigación de The Washington Post sobre el denominado Proyecto Panamá, atribuido a Anthropic, la empresa detrás del modelo Claude. Según esa publicación, el plan apuntaba a comprar millones de libros físicos para escanearlos y utilizarlos en el entrenamiento de inteligencia artificial.

Durante un juicio por derechos de autor, se reveló que la compañía había evaluado distintas formas de conseguir material, incluso a través de bibliotecas digitales piratas. La Justicia estadounidense, de acuerdo con el informe, trazó una diferencia entre escanear libros adquiridos legalmente y utilizar contenidos descargados de sitios no autorizados.

El riesgo para el patrimonio bibliográfico

La advertencia más fuerte llegó desde sectores vinculados al mundo editorial y al coleccionismo antiguo, que alertaron sobre la posibilidad de perder para siempre parte del patrimonio bibliográfico en manos de empresas de inteligencia artificial.

El caso abre una discusión más amplia sobre los costos materiales de una tecnología que suele presentarse como intangible. Detrás de cada modelo existen centros de datos, consumo energético, uso de agua, disputas por derechos de autor y, ahora también, libros físicos destruidos para sostener la carrera global por desarrollar sistemas cada vez más sofisticados.

El avance de la inteligencia artificial vuelve así a instalar una pregunta incómoda: hasta dónde puede llegar la industria tecnológica en su búsqueda de datos y qué bienes culturales pueden quedar en el camino.

Youtube video