Nueva victoria legal para las empresas de IA: entrenarlas con obras compradas no viola el copyright

Un juez federal de EEUU resuelve que no es el permiso de los autores para incluir contenidos protegidos en la base de datos de entrenamiento, pero avisa que esas obras no pueden haber sido descargadas ilegalmente

OpenAI gana la primera batalla a los editores de noticias por usarlas para entrenar a ChatGPT sin permiso

No es una victoria total, pero sí un importante precedente en para la gran batalla legal sobre copyright y el entrenamiento de las inteligencias artificiales. Un tribunal federal estadounidense acaba de dictaminar que comprar obras con derechos de autor e incluirlas en las bases de datos de estos algoritmos es un uso legítimo, aunque sus autores estos no hayan dado permiso para que se usen con este fin. Es decir, considera que no es necesaria una licencia o permiso especial para que las empresas de IA usen contenido protegido para su entrenamiento, siempre que fuera adquirido legalmente.

Así lo ha dispuesto el juez William Alsup, del Distrito Norte de California, en un caso que implicaba a Anthropic, la tercera gran empresa en la carrera de la IA tras OpenAI y Google. Anthropic fue demandada el año pasado por tres escritores que la acusaron de incluir sus libros pirateados en el entrenamiento del modelo Claude sin consentimiento.

No obstante, la compañía ha podido demostrar que realmente había comprado algunos de los libros en los que se basaba la demanda. Lo hizo en su formato físico, desencuadernándolos y escaneado sus páginas una a una e incluyéndolas en las bases de datos de Claude. Esta práctica, para el juez, constituye un “uso justo” de las obras, aunque Anthropic no recabara el visto bueno de sus autores previamente.

“Los autores sostienen que entrenar modelos de inteligencia artificial resultará en una explosión de obras que competirán con las suyas”, escribe el juez en su resolución, que les avisa que “esto no es así”. Es como “si se quejaran de que enseñar a los escolares a escribir bien resultaría en una explosión de obras competidoras”, argumenta el juez, que recuerda a los demandantes que los derechos de autor se basan en proteger la autoría de la obra, “no proteger a los autores de la competencia”.

“Como cualquier lector que aspira a ser escritor, los modelos de IA de Anthropic se entrenaron con obras no para adelantarse y replicarlas o suplantarlas, sino para dar un giro y crear algo diferente”, falla Alsup.

¿Y los libros descargados ilegalmente?

La victoria de Anthropic es trascendental porque abre la puerta a que las compañías de IA paguen simplemente por el precio de venta al público de las obras que quieran utilizar, sin necesidad de pagar más o negociar su uso con los autores. Sin embargo, la sentencia viene con un gran asterisco tanto para esta empresa (fundada por ex trabajadores de OpenAI y Google DeepMind y financiada con miles de millones de dólares por Amazon y la propia Google) en lo relativo a los libros descargados de internet ilegalmente.

Y no serían precisamente pocos. “Anthropic no tenía derecho a utilizar copias pirateadas para su biblioteca central”, avisa el juez: “Anthropic descargó más de siete millones de copias pirateadas de libros, no pagó nada y mantuvo estas copias pirateadas en su biblioteca incluso después de decidir que no las usaría para entrenar su IA. Los autores argumentan que Anthropic debería haber pagado por estas copias pirateadas. Esta resolución está de acuerdo”.

Los autores argumentan que Anthropic debería haber pagado por estas copias pirateadas. Esta resolución está de acuerdo

Alsup excluye claramente esta práctica del “uso justo” de las obras para el entrenamiento de Claude e indica a los demandantes que lo juzgará en una pieza separada, invitándoles a seguir el litigio por esa vía. Una decisión igualmente clave tanto para Anthropic como para las empresas de IA, puesto que las expone a multas milmillonarias en caso de que los juzgados terminen declarando que deben pagar el precio de cada obra utilizada.

Pagar por cada obra

Es un problema al que se enfrentan la mayoría de grandes empresas de inteligencia artificial. Meta, por ejemplo, fue denunciada por un autor de ciencia ficción en una demanda muy similar a que afecta a Anthropic. En ese proceso, todavía en marcha, documentos internos de la multinacional han mostrado que descargó al menos 81,7 terabytes de libros ilegalmente de Internet para entrenar sus modelos. Aunque depende del formato de las obras, esa base de datos podría contener unos 40 millones de libros.

Según correos electrónicos de empleados de Mark Zuckerberg presentados ante el tribunal, la descarga se realizó mediante torrents y utilizando ordenadores de la empresa. Los propios trabajadores alertaron a la dirección de que era una práctica ilícita que podría traerles problemas, pero esta, supuestamente, habría seguido adelante con ella.

La evidencia presentada contra Meta es la más contundente, pero su competencia está enfrentando procesos similares. OpenAI, por ejemplo, reconoció que había descargado y transcrito millones de vídeos de YouTube para usar ese material para el entrenamiento de ChatGPT, algo que violaría los derechos de autor tanto de los creadores como de la plataforma. Esta última, no obstante, ha renunciado a demandar a OpenAI por el momento, quizá porque su matriz, Google, ha sido acusada de hacer lo mismo.

OpenAI sí ha reconocido que ha usado contenidos protegidos por copyright, defendiendo que entrenar inteligencias artificiales habría sido “imposible” sin ese material. No obstante, no ha aclarado si accedió legalmente a él. Será algo que también diluciden los tribunales, puesto que la compañía ha sido demandada por medios como The New York Times y The Intercept, junto con ocho publicaciones del grupo Alden Global, por utilizar “millones” de artículos protegidos sin autorización.

Esta no es la única demanda contra OpenAI. George R.R. Martin, el autor de Canción de hielo y fuego, junto con otros 16 reconocidos escritores respaldados por el sindicato Authors Guild, presentaron una demanda colectiva contra la compañía. Otros autores han tomado acciones similares por su cuenta. Estos casos siguen en curso, y OpenAI ha respondido afirmando que respeta los derechos de los autores y está en conversaciones con Authors Guild para encontrar soluciones.

La clave de todos estos casos será hasta dónde alcanza el “uso justo” de las obras. Un “uso justo” que el juez del caso Anthropic ha amparado para el entrenamiento de las inteligencias artificiales, pero no para el empleo de contenidos descargados ilegalmente para ello.

¿Y los libros descargados ilegalmente?

Pagar por cada obra

Publicaciones relacionadas