Editorial El gran robo del siglo

El gran robo del siglo (I): Dialnet y el Barcelona Supercomputer Center (BSC)

Escrito por Ángel L. Fernández Recuero

El Estado entrenó su IA sin el permiso de sus titulares. Eva Moraga lo confirma en el Senado

Comisión de Ciencia, Innovación y Universidades. Sesión número 16 —martes, 3 de junio de 2025. La senadora Elena Castillo López, del Grupo Parlamentario Popular, inicia su intervención con una cortesía institucional —agradece la presencia y trayectoria de la ponente Eva Moraga, a quien presenta como voz autorizada del sector cultural—, pero pronto su tono vira hacia la inquietud. El discurso se convierte en un diagnóstico apremiante sobre el caos normativo que rodea a la inteligencia artificial y la falta de garantías en el uso de obras protegidas por derechos de autor.

Hay una parte muy importante. Como le decía: nos preocupa mucho quién vigila al vigilante en relación con este tema. ¿Qué opinión tiene sobre los modelos fundacionales del Gobierno? Por ponerle algún ejemplo: MarIA o ALIA, como decía el primer ponente de esta segunda intervención. ¿Le consta que para llevar a cabo el entrenamiento de estos modelos se cuenta con la autorización de los titulares de los derechos? Es decir, si el propio vigilante está haciendo un uso inadecuado de ese dato y de esa calidad del dato, mal vamos, porque no podremos hablar ni de reglamentos ni de códigos de buenas prácticas.

La respuesta de la abogada Eva Moraga Guerrero es aún más inquietante por lo serena: sí, el Gobierno ha usado Common Crawl —una base de datos que recoge contenidos masivos de Internet sin autorización— para entrenar sus modelos. Sí, lo reconoce públicamente en sus propias webs. Sí, el propio Plan Estratégico de Inteligencia Artificial fue redactado con inteligencia artificial, lo dice un pie de página. Es decir, el Estado ha construido su modelo de IA patrio con material que probablemente vulnera la legalidad, y encima lo ha hecho con orgullo. Bienvenidos al metarrelato del dato. Aquí comienza el verdadero robo.

Eso es un hecho y está reconocido. Además, en todos los modelos, tanto ALIA, como Salamandra, todos los que están puestos, se ha ido uno por uno comprobando que efectivamente se reconoce la utilización de Common Crawl. Otra cosa que hay que recordar es el Plan Estratégico de Inteligencia Artificial. Yo, cuando lo leí, dije: ¡Pero, Dios mío, ¿quién ha redactado esto?! Hasta que me di cuenta de que había un pie de página que ponía: «Para la redacción de este texto y las imágenes que se han utilizado en él se ha utilizado inteligencia artificial».

La senadora no obtiene respuestas tranquilizadoras. Lo que parecía una consulta parlamentaria se transforma en una denuncia velada: no solo los modelos lingüísticos fundacionales del Estado podrían estar vulnerando derechos de autor, sino que lo hacen con métodos que normalizan la apropiación sistemática de contenidos ajenos. De hecho en el propio informe del BSC referido a Salamandra de fecha 13 de febrero de 2025, en la página 67, se detallan los orígenes de obras/datos utilizados en el desarrollo de los modelos: 1. Open Direct Download (Common Crawl), 2. Ad hoc scrapers (arañas para la recolección de obras y datos desarrolladas por el propio BSC) y 3. FTP y similares (donde se podrían estar los repositorios de obras de instituciones que han firmado convenio para este proyecto, entre ellos, Dialnet. Y ello, a pesar de que, en el caso de Dialnet, en una parte importante de las ocasiones no es titular de los derechos de las obras que allí se alojan. Es aquí donde el foco se desplaza del marco normativo general a los casos concretos: ¿de dónde provienen los datos utilizados? ¿Quiénes son los responsables últimos de este expolio algorítmico? La respuesta conduce directamente a una de las infraestructuras de conocimiento más relevantes del ámbito académico hispanohablante, y a un centro de supercomputación que colabora estrechamente con el Gobierno.

Desde hace más de veinte años, Dialnet ha sido el orgullo silencioso del mundo académico en español. No presume, no grita, no se impone, pero ahí está: un archivo descomunal levantado por la Universidad de La Rioja, con infinidad de textos científicos, tesis, libros y actas de congresos que han nutrido la inteligencia de varias generaciones. Un tesoro común, público, construido con paciencia y rigor. Y sin embargo, esa catedral del conocimiento ha sido saqueada con sigilo por Common Crawl, una maquinaria automatizada que arrasa la red sin contemplaciones, copiando sin permiso, saqueando sin pudor, para engordar los estómagos insaciables de los modelos de inteligencia artificial, entre ellos los que alberga el Barcelona Supercomputing Center (BSC), responsable del entrenamiento de los modelos lingüísticos promovidos por el Gobierno, como el citado «Alia».

No se trata de una sospecha menor. En enero de 2025, CEDRO (Centro Español de Derechos Reprográficos) logró que Common Crawl aceptase retirar contenidos editoriales digitales de su repositorio, admitiendo así que su inclusión era, cuanto menos, problemática. Según informó la propia entidad, esta decisión se tomó para «evitar su uso en el entrenamiento de IA sin autorización». Pero la retirada llegó tarde: una parte sustancial del corpus de Dialnet ya había sido capturado y empleado para entrenar modelos fundacionales, presumiblemente sin respetar el marco legal de la propiedad intelectual.

Inaugurado el MareNostrum 5 uno de los superordenadores mas potentes de Europa y del mundo — Superordenador MareNostrum 5 en el Barcelona Supercomputing Center-Centro Nacional de Supercomputación. / BSC-CNS

El 17 de junio de 2025, CEDRO publicó un texto demoledor en su blog bajo el título «IAG y derechos de autor: del mito de la máquina que piensa a la realidad de la reproducción literal y del puro cálculo matemático». En él se desmantela el discurso tecnófilo que presenta a la IA como un ente etéreo y neutro. Por el contrario, lo que emerge es una maquinaria de réplica, que reproduce fragmentos textuales con fidelidad quirúrgica, sin creatividad, sin derecho de cita, sin reconocimiento alguno a los autores originales. Como denuncia el artículo: «la IA generativa no inventa, sino que remezcla sin permiso». Esta explotación de obras, según la normativa y jurisprudencia europea, requiere autorización y remuneración justa para autores y editores, algo que ignoran sistemáticamente muchos desarrolladores de IA, tanto del sector privado como público. Esta posición fue respaldada por un representante del Barcelona Supercomputing Center (BSC) en un taller del Parlamento Europeo, quien reconoció que en la IA generativa «cada fase —ingestión, procesamiento, aprendizaje— necesariamente implica acceder y copiar contenido protegido, no meramente ideas».

El asunto es más grave de lo que parece. No se trata solo de un problema técnico, sino de una fractura moral. Dialnet, ese proyecto modélico que la Universidad de La Rioja levantó como un faro para el conocimiento en español, conserva millones de registros académicos, muchos de ellos nacidos del esfuerzo colectivo de revistas como Revista de Filosofía, Papeles del Psicólogo, Cuadernos de Derecho Judicial o Clínica y Salud. Hoy, ese archivo ha sido perforado por rastreadores automáticos como Common Crawl, que actúan como termitas digitales, extrayendo sin permiso lo que no les pertenece. No hay cifras concretas, pero las denuncias se acumulan. CEDRO ha levantado la voz: los datos protegidos —realmente son contenidos creados por escritores o periodista o traducidos por un traductor y divulgadas por una editorial— han sido usados sin autorización para alimentar modelos de inteligencia artificial. Y lo más inquietante no es solo el robo, sino el silencio con que se comete, amparado incluso por proyectos financiados con dinero público, que ni explican ni trazan de dónde salen los materiales con los que construyen sus promesas algorítmicas.

¿Qué sucede cuando el supuesto garante de los derechos vulnera los derechos? ¿Cómo denunciar a un Estado que subvenciona con una mano al sector editorial y con la otra lo desangra? Esa es la pregunta que, con torpeza profética, formuló la senadora: «¿Quién vigila al vigilante?». El Gobierno promociona modelos como Alia como la gran promesa del humanismo digital patrio. Pero ¿qué humanismo es este que arranca páginas sin pedir permiso, que borra la autoría, que entrena su inteligencia con el trabajo no remunerado de miles de investigadores, profesores y editores? No es una tecnología neutral: es una forma de extractivismo.

Nos creímos el cuento de Google Books. Lo vendieron como un acto de fe en el progreso, una biblioteca infinita al alcance de todos, una utopía digital donde el conocimiento sería libre y eterno. Pero detrás de esa fachada se escondía una operación monumental de apropiación. Con el beneplácito de instituciones dóciles y la fascinación ingenua de la comunidad académica, Google escaneó millones de libros sin pedir permiso, sin pagar derechos, sin rendir cuentas. Lo hizo por nosotros, dijeron. Lo hizo para todos. Y muchos aplaudieron mientras la cultura impresa se convertía en un activo más en su balance de beneficios.

Hoy, ese mismo patrón se repite con una crudeza aún mayor. En nombre de la soberanía tecnológica, se ha traspasado una frontera que creíamos inviolable. Dialnet no es Google. No es una corporación tejida en Silicon Valley. Es una construcción paciente de la Universidad de La Rioja, un archivo público, universitario, hecho con rigor y con fe en la utilidad del conocimiento. Y, sin embargo, ha sido tratado como un depósito abandonado: rastreado, vaciado, saqueado mediante scraping por sistemas automatizados, bajo la coartada de la investigación pública. Como si bastara invocar el interés general para justificar el robo al bien común.

La paradoja duele: los artículos, las tesis, los libros académicos que fueron vertidos en Dialnet con vocación de servicio son ahora materia prima para fabricar herramientas comerciales. Herramientas que competirán en el mercado —sin ética, sin memoria— con las mismas revistas y los mismos autores que alimentaron esa inteligencia. Como en Google Books, nos dirán que todo esto es por el bien de todos.

9 comentarios

Andrés
20/06/2025 a las 11:47 · Responder

Menudo despropósito. Gracias por el artículo.
Andrés II
21/06/2025 a las 15:03 · Responder

Es así, no se lleven a engaño. La cacareada IA a través de los LLM y los LRM no crea, no inventa, no piensa, no razona. Solamente copia y pega de una forma muy avanzada y simula razonamiento. El éxito de estas herramientas está cimentado en el expolio de las pequeñas chispas de creatividad que cientos de miles de personas han ido aportando desinteresadamente.
Antonio
21/06/2025 a las 15:47 · Responder

Qué despropósito de artículo. La información a la que se accede es PUBLICA, mientras la información se referencie adecuadamente no hay problema, y lo sabéis. Vira al artículo a lo razonable, seguir una metodología adecuada para referenciar trabajos de otros y otras plataformas. Dialnet y cualquier plataforma con artículos es parte del pasado. ¿Vamos a seguir buscando datos uno a uno como en los últimos 30 años? ¿De verdad no veis el avance de los LLMs? ¿Si un ser humano usa los datos de dialnet no hay problema?
- Andrés III
  21/06/2025 a las 16:16 · Responder
  
  Un ser humano está obligado a referenciar el trabajo ajeno. La IA no lo hace, y no es por dificultad técnica, no te engañes, si no porque no interesa. Y no interesa por varias razones, para no dar pistas sobre las formas en las que se les entrena, por dar la ilusión al usuario de estar usando algo mágico (como una suerte de oráculo digital) y especialmente porque en muchos casos usan material para el entrenamiento que no deben. Y ya no es sólo material con derechos de autor de diferentes tipos, en muchos casos, ya se ha visto, material que no está disponible al público.
  
  Por cierto, que la información sea PÚBLICA no quiere decir que se pueda usar libremente. Imagino que usted ya sabrá que se publica bajo diferentes licencias y que en cada una, el autor elige qué derechos CEDE. Y es importante eso de «ceder» porque implica que el autor renuncia activamente a dichos derechos, no le son arrebatados por la fuerza mediante el scrapping «porque la info es pública ?».
  
  En otro momento habrá que abrir el debate de si las licencias actuales que permiten reproducir el contenido con la atribución de la autoría realmente permiten que ese contenido pueda ser empleado para el entrenamiento de una mega estructura de deglutir y regurgitar palabras.
Santiago
22/06/2025 a las 8:19 · Responder

El Senado Estados Unidos ya ha reconocido y pedido permiso para vulnerar los derechos de autor y así evitar perder la carrera de la inteligencia artificial contra China que se salta totalmente los derechos de autor es inquietante como hubo el Estado está dispuesto a vulnerar este derecho de los ciudadanos y de las personas en pro de una carrera armamentística y cuasimilitar como es la carrera de la inteligencia artificial
Pepito Grillo
25/06/2025 a las 10:11 · Responder

Cuando se comenzaron a construir carreteras, túneles o vías de tren, surgió el problema de que había que atravesar terrenos que tenían propietarios. En su día fue un escandalo, pero hoy en día todos entendemos perfectamente que la expropiación es un mecanismo necesario para no frenar en seco el desarrollo del país.

La IA es la más moderna de las infraestructuras, aunque alguno no se haya dado cuenta (y vaya a tardar, aún, mucho en darse cuenta). Habrá que buscar un mecanismo similar, porque si nos quedamos atrás en IA (hablo ya incluso a nivel Europeo), lo vamos a pagar durante mucho tiempo.
- Andrés II
  28/06/2025 a las 4:19 · Responder
  
  Cuando se construye una carretera, o un puente, se necesitan una serie de permisos y garantías, se planifica, se intenta evitar las expropiaciones y se intenta (aunque no siempre se consigue) compensar a los expropiados.
  
  Vd. la analogía que busca no tiene que ver con las grandes obras públicas, lo que Vd. pretende es establecer un paralelismo con el salvaje oeste en realidad. Considerar yerma e inhabitada una tierra que no lo está para construir parcelitas que explotar sin rendir cuentas a nadie y sin que haya nadie que pueda interferir con su lucrativo negocio.
  
  Por cierto, se lleva investigando en inteligencia artificial muchas décadas en Europa y se sigue haciendo. Lo que sucede es que esa investigación no es tan popular ni tan vistosa como la competición que existe entre las grandes potencias por ver quién lo tiene más grande, el modelo.
Alberto Martín
25/06/2025 a las 13:02 · Responder

Muchas gracias por el texto, no conocía esta situación.

El texto me resulta confuso en un punto clave: aunque habla del «corpus de Dialnet», parece que la queja principal es que los crawlers han extraído el contenido de los trabajos indizados en la plataforma. Sin embargo, Dialnet es principalmente una fuente referencial (en la mayoría de los casos ofrece información sobre los documentos, es decir los metadatos, como el título, autores, editorial, etc., pero no el texto completo del documento en sí). En algunos casos conretos sí que aloja algunos documentos, y en otros solo enlaza al contenido disponible en la web de la editorial o en repositorios institucionales. Pero en cualquier caso, el titular del copyright de dichos documentos no suele ser Dialnet, sino los propios autores de los documentos, las editoriales, o quien sea que ostente esa titularidad por una u otra razón. Por eso me sorprende que el texto presente a Dialnet como el principal agraviado.

¿Quizás el texto se refiere a la extracción sin permiso de los metadatos de los documentos recogidos en Dialnet, y no al texto completo de los mismos? Si se refiere a esto, conociendo que Dialnet se nutre del trabajo de las bibliotecas de universidades públicas españolas, resulta llamativo que ese esfuerzo no haya desembocado ya en una fuente de metadatos pública y reutilizable.

Sí que veo muy posible que debido a esta fiebre del oro de la IA, que requiere la acumulación de contenido bruto, los servidores de Dialnet, al haberse erigido en un hub que da acceso a gran cantidad de fuentes bibliográficas, estén recibiendo una cantidad de consultas que pueda ser difícil de gestionar. Y esto sí que puede ser una amenaza real para el funcionamiento continuado de la plataforma.

En todo caso, estas observaciones no pretenden restar importancia al problema de fondo: la apropiación indebida de contenido para entrenar modelos de IA. Las grandes editoriales comerciales ya han empezado a monetizar este uso firmando licencias específicas, sobre contenidos cuyo copyright les fue cedido por los autores en su momento, alcanzando cifras millonarias. En cambio, las instituciones académicas, donde se genera gran parte de este contenido altamente curado y especializado, a pesar de su creciente interés en atraer fondos a partir de la transferencia tecnológica y de conocimiento a las empresas, todavía no parecen haber mostrado interés en tomar el control de este contenido para, entre otras cosas, poder decidir sobre este tipo de usos.
Joseba Laka
15/09/2025 a las 15:11 · Responder

Este artículo no es correcto y el BSC ha hecho bien su trabajo. En Europa existe una excepción legal para que máquinas (y humanos) puedan leer a gran escala contenidos online y usarlos en este caso para entrenamiento de modelos de IA: se llama minería de texto y datos (TDM). Funciona así, en términos simples:
• Regla 1 (investigación): universidades, centros de investigación y patrimonio cultural pueden hacer TDM si tienen acceso legal al contenido. No hay que pedir permiso caso por caso.
• Regla 2 (uso general): cualquiera puede hacer TDM… salvo que el titular lo prohíba con un aviso legible por máquinas (un “cartel técnico” que los rastreadores entienden).
Traducido: el silencio es permiso para TDM, el cartel claro es veto. Y si pones el cartel, los desarrolladores de IA que operan en Europa deben respetarlo. Además, la Ley de IA les exige transparencia: documentar cómo entrenan, con qué, y publicar un resumen del material usado.
No hace falta ser jurista para seguir la trama: Europa diseñó un equilibrio entre innovación y derechos. Y el BSC ha hecho BIEN su trabajo. Usar CommonCrawl no es incorrecto, al contrario. Otra cosa es que no guste la trasposición española de la directiva europea. España transpuso estas reglas (RDL 24/2021): el art. 67 LPI confirma la excepción TDM y la reserva “por medios de lectura mecánica”; además regula conservación del patrimonio (art. 69), obras fuera de comercio (art. 71) y aclara que la reproducción fiel de obras visuales en dominio público no crea un nuevo derecho (art. 72). Y no me creo yo que el PP en particular vaya a cambiar esto en el futuro.

Deja un comentario Cancelar

Hemeroteca