Jorge Corrales, Director general de CEDRO
La experiència i les anàlisis efectuades en els darrers anys confirmen que els continguts editorials protegits pel Dret d’Autor són utilitzats per al desenvolupament dels sistemes d’intel·ligència artificial generativa (IAG) i com, en diferents formats i de diferents maneres, són reproduïts en totes les fases de desenvolupament del sistema esmentat.
Aquesta explotació de les obres, d’acord amb la normativa i la jurisprudència europea, exigeix l’autorització dels seus autors i editors i una remuneració justa per aquests usos, cosa que semblen oblidar els desenvolupadors, privats i públics, d’aquest programari d’IA.
Com no podia ser d’una altra manera, el plantejament exposat més amunt, quant a la utilització d’obres protegides, ha estat ratificat per un representant del Barcelona Supercomputing Center (BSC) en un taller sobre IA i drets d’autor, organitzat per la Comissió JURI del Parlament Europeu, el 4 de juny passat.
El representant del BSC va posar de manifest que en el desenvolupament de la IAG «cada fase –ingestió, processament, aprenentatge– necessàriament implica accedir i copiar contingut protegit, no merament idees».
I això és així perquè en l’entorn digital, tradicionalment les obres, per exemple, els llibres, diaris, revistes i partitures, s’han representat mitjançant un codi binari -seqüències de zeros i uns-, que permet emmagatzemar i processar la informació Aquesta codificació emmagatzemava implícitament també la informació relativa a l’ordre de les paraules i la seva posició en de cicle de traducció entre el llenguatge humà i el llenguatge de les màquines, permetent que aquestes ho entenguin.
Alguns dels primers desenvolupaments moderns de la IAG seguien la idea seqüencial de l’era binària. Però no ens hem de deixar enganyar, aquesta tecnologia va néixer amb l’objectiu de reduir el cost d’emmagatzematge de la informació i augmentar-ne l’eficiència en la gestió. Ara bé, ara, amb el desenvolupament dels models basats en Transformers, els procediments de traducció del llenguatge humà al llenguatge màquines han canviat.
La tecnologia Transformers permet reproduir de manera literal la informació i lexpressió original de lobra. D’acord amb la RAE, literal significa: «…conformialalletradeltext,oalsentitexacteipropi…». A diferència d’altres sistemes que codifiquen les paraules en format binari –zeros i uns–, els Transformers utilitzen representacions vectorials multidimensionals, mitjançant una tècnica coneguda com a embedding.
Aquesta tècnica d’embedding codifica la informació següent:
- Vector de tokens de la paraula: reprodueix la paraula.
- Vector de posició: reprodueix la posició de la paraula a la frase, text, etc. Sense la inclusió d’aquesta informació de posició, no es podria desenvolupar la part de valor semàntic (significat) i de context del model.
- Vector de significat (semàntica): reprodueix el significat que l’autor/a ha donat a la paraula al text.
- Vector de context: reprodueix la relació de la paraula amb el context.
Per tant, i sense necessitat ni tan sols de ser preguntat sobre l’accés legítim a les obres que són utilitzades per al desenvolupament de les aplicacions d’IAG, el representant del BSC va afirmar que, a la fase d’“ingestió” –preparació del repositori inicial d’obres, conegut tècnicament com “dataset”– cal accedir i reproduir obres protegides. Això implica que en la primera etapa en el desenvolupament de la IAG es requereix la reproducció digital de totes les obres incloses al repositori, per a això és necessària l’autorització dels seus titulars de drets. I aquest punt és clau abans d’analitzar si es podria aplicar el límit de mineria de textos i dades previst a l’article 4 de la Directiva 2019/790, que permetria l’ús de les obres sense autorització per a alguns fins, ja que abans caldria comptar amb aquest accés legítim a aquestes publicacions perquè fos legal.
Article publicat a Cedro, clica aquí per accedir a l’article sencer








