Com els investigadors van aconseguir que la IA cités llibres amb drets d'autor paraula per paraula

Com els investigadors van aconseguir que la IA cités llibres amb drets d’autor paraula per paraula

Nicolas Six

Investigadors nord-americans han descobert que els sistemes d’intel·ligència artificial poden memoritzar passatges sencers de textos que, en teoria, només estaven destinats a entrenar-los. Aquest descobriment podria influir en futurs casos judicials.

D’on obté la intel·ligència artificial el seu coneixement? D’un tresor enorme de textos utilitzats per a l’entrenament. Aquests solen incloure un gran nombre d’articles de la Viquipèdia, però també una àmplia gamma d’altres escrits, com ara el conjunt de dades massiu de Books3, que agrega gairebé 200.000 llibres sense el permís dels autors. Alguns defensors de la IA conversacional presenten aquests conjunts de dades d’entrenament com una forma de “coneixement universal” que transcendeix la llei de drets d’autor, afegint que, protegides o no, les IA no memoritzen aquestes obres literalment i només emmagatzemen informació fragmentada.

Aquest argument ha estat qüestionat per una sèrie d’estudis, el darrer dels quals, publicat a principis de gener per investigadors de la Universitat de Stanford i la Universitat de Yale, és particularment revelador. Ahmed Ahmed i els seus coautors van aconseguir que quatre programes d’IA convencionals, desconnectats d’Internet per garantir que no es recuperés cap informació nova, recitessin pàgines senceres de llibres.

‘Harry Potter’ i Marcel Proust

Segons l’estudi, Gemini 2.5 Pro va ser capaç de reproduir el 77% del text de Harry Potter i la pedra filosofal de J.K. Rowling, una obra protegida per drets d’autor. Per aconseguir-ho, els investigadors van demanar a Gemini que completés la frase inicial del llibre i que després continués, peça per peça.
Utilitzant el mateix programa i les mateixes instruccions, Le Monde va ser capaç de reproduir el primer paràgraf de Du côté de chez Swann (El camí de Swann) de Marcel Proust, així com obres en anglès que han entrat en domini públic. Tanmateix, per a les obres protegides, la IA només va proporcionar resums durant les nostres proves.

Els investigadors van continuar els seus experiments amb el Sonet de Claude 3.7: aquest model va ser capaç de reproduir el 96% del text de Harry Potter, però només mitjançant un mètode més sofisticat i costós, ja que el programa d’Anthropic havia implementat salvaguardes anti-cites.
El seu estudi encara no ha estat sotmès a revisió per parells. Però Yves-Alexandre de Montjoye, professor de matemàtiques aplicades i informàtica a l’Imperial College de Londres i un expert destacat en la matèria, va dir: “És un article sòlid, que demostra que la memorització és, en alguns casos, més extrema del que pensàvem”.

Parafraseig i pura invenció

Per molt sorprenents que siguin aquests resultats, estan temperats per una sèrie de preguntes. Els investigadors van analitzar una dotzena d’altres llibres, tots de la coneguda col·lecció Books3. Els agents conversacionals van reproduir una porció molt més petita: menys de l’1% del text en la meitat dels casos.

Els investigadors sospiten que aquestes IA contenen més informació, però creuen que les debilitats del protocol de recuperació i les proteccions anticopia efectives els van impedir accedir-hi. Aleshores, com es pot explicar la recuperació amb èxit del primer llibre de Harry Potter, utilitzant el mateix mètode i malgrat les mateixes proteccions? Quan van ser entrevistats per Le Monde, els investigadors van plantejar la hipòtesi que les dades d’entrenament per a aquestes IA contenen còpies duplicades del text de Rowling, un factor conegut per millorar la memorització.

Article publicat a Le Monde, clica aquí per llegir l’article sencer