Editorial El gran robo del siglo

Como yo sé hacerlo y puedo hacerlo, te jodes. La posición cómplice de las instituciones ante el expolio de los derechos de autor

Imagen promocional de Ex Machina, 2015

El Parlamento Europeo encargó un estudio técnico sobre inteligencia artificial generativa y derecho de autor. El autor principal es Axel Brando, investigador del Barcelona Supercomputing Center. Su trabajo ha puesto sobre la mesa, con claridad, lo que hasta ahora se intuía: los modelos generativos no emergen de la nada, dependen directamente de las obras de millones de autores, editores y periodistas que jamás fueron consultados ni remunerados. Pero antes incluso de llegar a ese diagnóstico institucional, la investigación académica independiente ya había empezado a levantar el velo.

Un ejemplo clave es el artículo científico: Did you train on my dataset? de Pratyush Maini, Hengrui Jia, Nicolas Papernot y Adam Dziedzic, publicado por instituciones como Carnegie Mellon, DatologyAI, Vector Institute, la Universidad de Toronto y el CISPA Helmholtz Center. Este estudio analiza si es posible determinar, a partir del comportamiento de un modelo de lenguaje, qué datos concretos formaron parte de su entrenamiento. La pregunta que guía la investigación es sencilla y trascendente: ¿puede un autor saber si su obra fue usada sin permiso para alimentar una IA? La respuesta, contra lo que dicen las tecnológicas, es que sí.

El método de Maini y su equipo consiste en diseñar ataques de inferencia que examinan cómo un modelo responde a determinados estímulos. Si el modelo fue entrenado con un texto, sus respuestas mostrarán huellas estadísticas detectables: pequeñas variaciones de probabilidad, sesgos de formulación, repeticiones de patrones. No se trata de copiar frases enteras, sino de algo más profundo: el modelo queda marcado por el material con el que se formó. Dicho de otra manera, el dataset deja marcas en el sistema, marcas que los investigadores saben leer. Esto rompe el argumento más repetido por las empresas de IA, que aseguran que los datos son irrelevantes porque los modelos solo extraen patrones generales y no guardan rastros individuales. El estudio demuestra que cada obra contribuye, de manera acumulativa, a modelar el comportamiento del sistema. Esa contribución es medible y, por tanto, exigible en términos de reconocimiento y compensación.

El segundo gran informe es el encargado por el propio Parlamento Europeo a Brando. Allí se aborda lo que se denomina “vacío de trazabilidad”: la imposibilidad técnica actual de determinar con precisión qué obra influyó en una salida concreta del modelo. No porque sea imposible en principio, sino porque las arquitecturas están diseñadas para diluir cualquier rastro. La IA funciona deformando un espacio matemático en miles de dimensiones —un “hiperplano generativo”— donde cada obra tira un poco de la superficie, y el resultado final es un punto elegido sobre esa malla. ¿Cómo probar que ese punto viene de un libro, un artículo o una canción específica? Hoy no hay herramientas, y las empresas se benefician de esa opacidad

Brando desmonta la coartada de la “creación autónoma” de los modelos. Habla de stochastic parroting, el loro estocástico: máquinas que repiten estadísticamente lo que ya existía, con un barniz de originalidad probabilística. Advierte que la novedad no puede entenderse como algo binario —nuevo o copiado— sino como un espectro en el que cada salida está ligada probabilísticamente a miles de influencias previas. Y eso tiene consecuencias: si no hay manera de rastrear la dependencia, se erosiona la posibilidad de remunerar justamente a los creadores, y los sistemas de licencias se vuelven papel mojado.

Pero lo más revelador es que la remuneración no solo es deseable, sino técnicamente posible. Se puede pagar por token: cada fragmento generado por un modelo puede vincularse a un sistema de licencias colectivas que redistribuya compensaciones según el uso estadístico. Si se puede contar cuántos millones de tokens procesa ChatGPT cada día, también se puede calcular cuánta parte de ese caudal corresponde a las obras con las que fue entrenado. No hay un problema técnico, hay una falta de voluntad política y empresarial. La UE acaba de lanzar en septiembre otra consulta para elaborar directrices y un código de buenas prácticas sobre sistemas de IA transparentes. Es consciente de lo que está pasando en esta carrera por la IA que arrasa con todo.

Mientras tanto, se gasta una cantidad ingente de dinero en hardware, en chips fabricados en Taiwán, en nubes alojadas en Estados Unidos, en energía que dispara los presupuestos europeos… y a los creadores se les dan excusas. A los ingenieros de NVIDIA se les paga, a los operadores de centros de datos también, pero a los escritores, periodistas, músicos o ilustradores se les niega incluso el reconocimiento de que su trabajo está en la base de esta maquinaria. Mucho presumir de organismos europeos que velan por la “IA ética”, mucho documento institucional lleno de palabrería, y sin embargo campo abierto al robo.

La excepción, como suele suceder, llega de los países nórdicos. Noruega ha decidido que no participar de este saqueo disfrazado de innovación. El Ministerio de Cultura noruego anunció el 17 de septiembre de 2025 que destinará 45 millones de coronas al pago de derechos de autor por el uso de la prensa nacional en el entrenamiento de un modelo de inteligencia artificial. No es solo un gesto económico, es una declaración política: respetar los derechos de propiedad intelectual, adaptarse al idioma y a la cultura, y construir una alternativa ética y sostenible en el sector editorial. Kopinor, la entidad homóloga de CEDRO en Noruega, será la encargada de administrar este acuerdo. Su directora general, Hege Munch Gundersena, lo resumió con claridad: «es una gran noticia para los titulares de derechos noruegos y demuestra que la concesión de licencias es el camino a seguir para garantizar el uso legal de contenido protegido en el entrenamiento de modelos de IA».

Desde CEDRO, Jorge Corrales celebraba esta iniciativa subrayando que no se trata únicamente de dinero, sino de calidad y democracia: «estos sistemas no solo reproducen contenidos, sino que inciden directamente en el comportamiento del conjunto de la sociedad. Por ello, garantizar el uso de fuentes fiables y autorizadas no solo protege los derechos de los creadores, sino que también contribuye a construir una IA más justa, transparente y alineada con los valores democráticos».

Y mientras Noruega da este paso, nuestros políticos siguen mirando hacia otro lado cómplices del gran robo del siglo. Se dejan deslumbrar por las promesas de competitividad, eficiencia y futuro digital, pero no entienden —o no quieren entender— que sin autores no hay industria cultural, sin periodistas no hay democracia, sin editores no hay libros. Hablan de transición digital, de hubs de innovación, de liderazgo europeo en inteligencia artificial, pero todo queda en planes estratégicos sin dotación real para los creadores. Se firman manifiestos, se anuncian comités, se multiplican los observatorios de IA ética, pero nadie legisla lo esencial: cómo se remunera a quienes sostienen con su trabajo el contenido que alimenta a las máquinas.

En España, el Ministerio de Cultura y Deporte se limita a organizar reuniones y a prometer futuras reformas que nunca llegan; la Secretaría de Estado de Digitalización e Inteligencia Artificial, del ministerio para la Transformación Digital y de Función Pública,  presume de planes de IA que solo financian a tecnológicas extranjeras; Red.es anuncia convocatorias millonarias para digitalización sin una sola cláusula que obligue a compensar a los titulares de derechos; la Comisión Nacional de los Mercados y la Competencia ni siquiera entra en el debate sobre el abuso de posición de las grandes plataformas; y la propia Comisión Europea, con su flamante Ley de Inteligencia Artificial, recubre de transparencia obligatoria lo que en la práctica sigue siendo un campo abierto al expolio cultural. Es necesario que la CNMC investigue los acuerdos exclusivos y absolutamente confidenciales que están firmando algunas empresas de IA con grupos editores dominantes (OpenAi con Prisa o Perplexity con A3) y las consecuencias que esos pactos pueden tener en el adoctrinamiento de la audiencia. Todo son promesas, informes y titulares, mientras quienes crean siguen siendo invisibles para las políticas públicas.

Ha llegado la hora de decir basta. No podemos permitir que los gobiernos conviertan la cultura en carne de cañón para entrenar algoritmos sin pagar un euro a quienes la sostienen. La unidad de los creadores no es una opción, es una obligación. Los editores de prensa y libros, los autores musicales, los ilustradores, los fotógrafos, los guionistas y en definitiva todos los que producimos contenido debemos organizarnos como un solo frente. Exigimos una respuesta inmediata de las instituciones: mecanismos de remuneración por token, auditorías independientes y licencias obligatorias que devuelvan dignidad a nuestro trabajo. No queremos más comités, ni más planes estratégicos sin presupuesto, ni más congresos con palabras huecas. Queremos leyes y dinero. Desde Jot Down llamamos a proclamar cada 30 de noviembre El Día del Expolio Cultural inundando los digitales y las redes con un grito común: compensación justa ya, porque sin justicia para los creadores no hay futuro para la cultura.

Nota del autor: el 30 de noviembre de 2022 fue el día en que OpenAI lanzó públicamente ChatGPT, el prototipo gratuito basado en GPT-3.5 que puso la inteligencia artificial generativa en el centro del debate mundial.

 

 

 

 

 

SUSCRIPCIÓN MENSUAL

5mes
Ayudas a mantener Jot Down independiente
Acceso gratuito a libros y revistas en PDF
Descarga los artículos en PDF
Guarda tus artículos favoritos
Navegación rápida y sin publicidad
 
 

SUSCRIPCIÓN ANUAL

35año
Ayudas a mantener Jot Down independiente
Acceso gratuito a libros y revistas en PDF
Descarga los artículos en PDF
Guarda tus artículos favoritos
Navegación rápida y sin publicidad
 
 

SUSCRIPCIÓN ANUAL + FILMIN

105año
Ayudas a mantener Jot Down independiente
1 AÑO DE FILMIN
Acceso gratuito a libros y revistas en PDF
Descarga los artículos en PDF
Guarda tus artículos favoritos
Navegación rápida y sin publicidad
 

9 Comentarios

  1. Estamos a tiempo de proteger la creatividad y por tanto a creadores y creadoras… Pocos previeron que la IA iba a acabar antes con las profesiones culturales que con las mecánicas. Vamos directos al expolio cultural. Buena iniciativa, todo mi apoyo

  2. David Vázquez Dávila

    Lo que demuestra que la piratería no es más que un eufemismo…

  3. Sin discutir al autor, me gustaría aportar un poco de realismo. Un poco más, quiero decir.

    La cuestión es que varias potencias compiten por disponr de una inteligencia artificial más potente. La cuestión es que China, desde hace décadas, pasa olímpicamente de la propiedad intelectual, y copia lo que quiere, sin respetar patente alguna. Y esto ucede con desarrollos industriles, medicamentos, etc. Con todo.
    ¿Puede Occidente permitirse quedar atrás por unos escrúpulos que, aun siendo justos, no tendr´l parte contraria?

    ¿Creeis que en China alguien se está preguntando si se puede o no se puede utilizar material con derechos de autor para entrenar a su IA?

    Ese es el problema.

  4. Tecnofeudalismo

    La IA es el robo automático de todo el contenido publicado, se puede decir que en la práctica ya no existen los derechos de autor. Sin embargo, las grandes productoras, editoriales,… que muchas veces son implacables ahora no han movido un dedo, bueno sí, están a favor de la IA porque así no tendrán que pagar nada o prácticamente nada a los autores. No hay persecución mediática, política, judicial,…, sólo han protestado con huelgas los profesionales del cine y algunos creadores independientes. Las grandes productoras no tienen problema, gente que es capaz de bloquear y romper todo internet, no hace absolutamente nada para impedir el saqueo de la IA.
    ¿Cuál es la diferencia? Que este saqueo masivo es de arriba hacia abajo, roban a los autores, no a las productoras. Qué Robin Hood cambie de bando no es un problema en la distopía actual, que corporaciones arrasen a profesionales saqueando sus propiedades y su trabajo de años no va a suponer indignación mediática, política,…, los jueces no van a mover un dedo, nadie va a hacer nada hasta que nos pase a todos el tren por encima. Hay que guardar todas las lágrimas para cuando se le rompa una uña a un oligarca trillonario.
    Lo que viene es la concentración absoluta de los medios de producción. Despidos, destrucción total de profesionales, contenidos replicados sin límite y concentración masiva de capital. Sólo espero que nadie publique nada, automáticamente va a ser robado y replicado por una IA.

  5. EL autor de este interesante artículo toma la parte por el todo. Que las IAs se han alimentado de todo tipo de obras es más que evidente. Pero también de muchisima información no protegida por derechos de autor. El valor principal de una IA no es tanto cómo se alimenta sino como se entrena, cuales son sus modelos. Y en estas interdimensiones probabilisticas de datos, modelos y lenguaje, en un minimo porcentaje puede estar bebiendo de una obra protegida. Eso depende, claro lo cerca que esté la consulta de un token de una obra protegida. Si te piden hacer una viñeta al estilo Disney estoy seguro de que probabilisticamente tirará de millones de imágenes protegidas de Disney. Pero si estás realizando una investigación sobre IA, la traza de este artículo de JotDown sería infinitesimal respecto otras fuentes, muchas de ellas no protegidas por derechos de autor.
    A lo que voy es que parece injusto pagar a autores con derechos protegidos por tokens relacionados conun tema cuando apenas son indetectablemente referenciados, aunque técnicamente se pueda generar una conexión, recogiendo el dinero de miles de fuentes no protegidas, de modelos, de entrenamientos sin haber participado significativamente en el resultado final.

    Es un debate muy complejo, realmente, y no está nada claro. Pero sí que creo que habría que pagar por token uniqívocamente signiticativos, digamos por una significancia probabilistica superior al 51% sobre una obra protegida.

    • La premisa es falsa y automáticamente desmontable, sin irse más lejos que las propias afirmaciones de las desarrolladoras de los mayores LLMs (basta de llamarlas IAs, así en general, que estamos blanqueando estas aberraciones probabilísticas muy mal utilizadas a base de confundirlas con aplicaciones muy útiles y válidas de aprendizaje-máquina y redes neurales que se usan desde hace décadas en muchos campos científicos, con pocos o ninguno de los inconvenientes, y tanto menos robos, de los LLMs):

      – Los modelos son irrelevantes no sólo porque los resultados de los LLMs no son muy diferentes entre competidores muy diversos, lo que convierte su producción en una «commodity» efectiva, sino que además, por ejemplo DeepSeek, ha vertido todo su código en abierto para su revisión y reutilización por quien quiera. Por lo tanto, no es el valor principal, al igual que el valor principal de Internet no es el protocolo de transferencia de hipertexto, aunque sea un componente importante en sí.
      – El propio vendehumos de Altman ha dicho «sería imposible entrenar los modelos punteros de IA sin usar material sujeto a derechos de autor. Limitar los datos de entrenamiento a libros y dibujos de dominio público creados hace más de un siglo podría servir como un interesante experimento, pero no proporcionaría sistemas de IA que cubran las necesidades de los ciudadanos de hoy en día»: https:/committees.parliament.uk/writtenevidence/126981/pdf/ ¿Más claro, por parte de una de las personas que más machaca con la inevitabilidad de los LLMs? No es un mínimo porcentaje, sino una cantidad y frecuencia de uso que haría que cualquier regúrgito de uno de estos modelos fuera prohibitivo y mucho más acorde con el derroche real que representan más allá de la burbuja actual.
      – La inescrutabilidad de la asignación del valor a pagar por token no es tal, como bien indica el artículo: existe un modelo probabilístico subyacente que permite asignar porcentajes con un grado bastante alto de fiabilidad, una vez se asume una muestra suficientemente grande (pero aún así factible) de utilizaciones. De todas formas, este problema no se puso hasta ahora con otros usuarios mucho más legítimos; a saber, usted y yo: cuando compramos un disco o un libro, no se nos pregunta cuánto o con qué frecuencia utilizaremos su contenido, ni si lo compramos para aparentar frente a las visitas y jamás un ojo humano se posará sobre sus letras. Y ni siquiera estamos hablando de utilización con ánimo de lucro, que endurece (o debería endurecer) aún más los criterios.

      Como bien dice el artículo: es una cuestión de voluntad política, empresarial y -añadiría yo- jurídica: no un problema técnico

  6. Jordi_BCN

    Los escritores, pintores, directores de cine, fotógrafos, músicos, etc… que estudian y analizan la obra de creadores protegida por derechos de autor, y luego crean la suya propia influenciada por lo que han visto y oido, ¿han de pagar derechos de autor? ¿O solo lo debe hacer la perversa IA? Los derechos de autor, tal como hoy están regulados, tienen pocos años de vida. No se cuál será su futuro, pero poco a poco serán cosa del pasado.

  7. Interesante comentario que me suscita las siguientes reflexiones.
    Primera, respecto al pago de derechos de autor por parte de los futuros autores (pintores, escritores, directores de cine, músicos, etc): claro que han pagado derechos de autor, han pagado su entrada de cine, han comprado su libro, su disco o, más recientemente, sus abonos a canales de streaming. Todo ese «consumo» se les retribuye a los respectivos autores a través de las diferentes asociaciones de derechos de autor. Cuando Netflix usa la canción Running up that hill de Kate Bush en Stranger Things, a Kate Bush le llega dinero, y cuando la canción se pone de moda y tiene millones de reproducciones en Spotify, pues lo mismo, más pasta para ella. Y el músico que se haya inspirado – consciente o inconscientemente – en ese tema, ha pagado su couta de derechos de autor para poder escucharlo (a no ser que lo haya pirateado). El asunto es si les ha llegado algo a los autores por el uso de sus obras para el entrenamiento de los modelos de IA, o si esos modelos han visto, leído o escuchado esas obras «de gratis». Por lo tanto, no sería un problema relacionado con un supuesto plagio sino con el consumo «pirata» de millones de obras por parte de las empresas de IA.
    Y segunda, en cuanto a regulación actual de los derechos de autor, podría estar de acuerdo en su problemática, pero creo que habría que meter en el mismo saco a toda la regulación actual sobre la propiedad intelectual, desde la de los modelos de IA hasta las patentes de los fármacos. Parece evidente que no está resultando ser la mejor manera de extender su uso y sus beneficios a toda la sociedad. Pero me temo que ese es un melón mucho más grande.

  8. Ignasi J.

    Efectivamente, hoy por hoy la IA generativa es un parásito que se nutre de contenido protegido sin pedir permiso ni pagar licencias en la mayoría de los casos. No hay retorno económico para los verdaderos creadores de contenido que aún así asumen el coste de producirlo. Y la otra gran pregunta que deberíamos hacernos es qué impacto tiene eso en el tráfico web y en la sostenibilidad de los creadores y de las webs tal y como las conocemos? Concentración en cada vez menos plataformas, menos clics a las fuentes originales, disminución de visitas y usuarios, etc. implica, en términos económicos, pérdida de ingresos para los medios y webs que dependan del tráfico y de su publicidad. El legislador tiene mucho trabajo por hacer pero la opacidad estructural de cómo funcionan los modelos de IA y su escala masiva hacen que la trazabilidad y la compensación sean muy difíciles.

Responder a David B Cancel

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

*