Nombre de lectures: 0

Abans de començar, vull definir el concepte web scraping: és una tècnica utilitzada per recopilar informació de fonts en línia d’accés públic.

Aquesta informació s'extreu, per exemple, de serveis com els mitjans de comunicació, les xarxes socials, els debats en fòrums i els llocs web personals, i pot ser informació publicada lícitament o il·lícitament (per exemple, fruit d’una violació de seguretat).

I, amb aquesta definició al cap, us volia compartir una sèrie de reflexions i preguntes a les quals fa dies que vaig donant voltes.

Darrerament, quan parlem de models d’intel·ligència artificial (IA) i, especialment, del seu entrenament, surt quasi sempre el terme web scraping. I aquest concepte genera una especial sensibilitat en aquells que ens dediquem a la garantia del dret a la protecció de dades personals.

Una de les primeres coses que s’explica quan es parla del dret a la protecció de dades (com a mínim a la Unió Europea) és que protegeix totes les dades que fan referència, directament o indirectament, a una persona física. TOTES, per tant, també aquelles que són públiques. I, que és també un instrument de garantia per a la protecció de la resta de drets i llibertats que es poden veure afectats pel tractament de dades.

Això què vol dir? Doncs que quan ets una persona o entitat que tracta dades i li és aplicable l’RGPD necessiten, per poder tractar les dades tenir, sempre, una base jurídica que legitimi el seu tractament (recollida, registre, organització, estructuració, conservació, modificació, extracció, …) . I, les bases jurídiques són les que venen regulades a l’art. 6 de l’RGPD. Òbviament, si a més són categories especials de dades requerirem encabir el tractament dins d’una de les excepcions de l’art. 9.2 de l’RGPD.

Si això ho apliquem al web scraping vol dir que aquelles entitats que l’utilitzen per recollir d’Internet dades de forma massiva per entrenar models d’IA (o per qualsevol altra cosa), a la UE, han de comptar amb una d’aquestes bases jurídiques.

I, aquí ve la meva pregunta: i els que entrenen models d’IA fora de la UE? La resposta seria que no, que se’ls hi aplica la normativa del seu país.

I, si aquests models d’IA entrenats amb dades personals i sense tenir una base de legitimació (art. 6 RGPD) es volen posar al mercat de la UE, es volen utilitzar per entitats que sí estan a la UE? En aquest cas, tenim dues normes a tenir en compte. El Reglament d’IA i l’RGPD.

Avui no toca entrar en veure com s’han d’integrar, ni en que el RIA regula la seguretat de productes i serveis i que l’RGPD regula drets. Avui quedem-nos amb la idea que l’RGPD no ha quedat desplaçat pel RIA i que si es tracten dades personals cal complir amb la normativa de protecció de dades.

I, en el cas concret, que avui tractem, el web scraping, recordem que l’RGPD s’aplica, des del punt de vista terrritorial (art. 3.2 RGPD), no només a les entitats que tracten dades personals a la UE sinó també al tractament de dades personals efectuat per un responsable o un encarregat no establert a la UE.

Així, si una entitat fora de la UE utilitza dades personals de persones que es troben a la UE per entrenar un model d’IA,li es aplicable l’RGPD fora dels casos regulats a l’art. 3.2 RGPD? Doncs semblaria que no, tot i que hi ha alguns elements al RIA que ens poden ajudar en aquest sentit.

A partir d’aquí, podria una entitat situada dins la UE utilitzar un model d’IA entrenat amb dades personals per al que no es tenia base jurídica? El Comitè Europeu de Protecció de Dades (CEPD) va intentar donar llum a aquesta qüestió en el seu Dictamen 28/2024 sobre determinats aspectes de la protecció de dades relacionades amb el tractament de dades personals en el context dels models d’IA. És un Dictamen llarg i dens, del qual avui només vull fer esment del Cas 3 que s’hi inclou.

Amb mil matisos i excepcions, exposades al llarg del Dictamen, el CEPD exposa un cas on, resumint, ve a dir que si s’han tractat dades personals sense base jurídica i es garanteix que el model d’IA és efectivament anònim, les activitats de tractament subsegüents no suposarien un tractament de dades personals i, per tant, no s’aplicaria l’RGPD. En conclusió, la legitimitat dels nous tractament de dades, personals o no, no es veuria influïda per la manca de base jurídica en la fase de desenvolupament del model d’IA. Per descompat si el model s’utilitza per tractar dades personals “noves” (diferents de les que varen servir per entrenar-lo) sí s’aplicaria l’RGPD.

I, arribats a aquest punt, on queda la responsabilitat proactiva? On queda la protecció de dades des del disseny i per defecte? O l’obligació d’encoratjar als proveïdors a dissenyar i desenvolupar aplicacions, serveis i productes a complir amb la normativa de protecció de dades (considerant 78 de l’RGPD)? (com a mínim els que hagin de servir per tractar dades personals). On queda la protecció dels drets i llibertats fonamentals, de l’Estat de Dret i de la democràcia? On queda la IA centrada en l’ésser humà, fiable i ètica?

Amb tot això no m’oblido ni un segon de la necessitat d’innovar, dels enormes beneficis que aporta la IA en tots els àmbits de la nostra vida, de la importància de flexibilitzar i simplificar obligacions per als sector empresarial i, en particular, per les PIMES i l’emprenedoria del nostre país (o de la UE), i de recolzar a les administracions publiques a proveir millors serveis a les persones. En aquests àmbits, també em faig una altra pregunta: l’exposat mes amunt (Cas 3 del Dictamen 28/2024 del CEPD) beneficia el nostre teixit empresarial, de recerca, al nostre sector públic, o realment el perjudica?

Bé, això només són preguntes que em faig a mi mateixa i reflexions al seu voltant. Per tant, si us he animat a pensar-hi i les voleu compartir, no ho dubteu.

I, per acabar, una última pregunta, com afectarà a tot aquest laberint el Digital Omnibus Package, que entre d’altres vol introduir importants canvis en l’RGPD i el RIA?

El moment actual és una enorme font d’incògnites i ens posa com a persones i societat en el centre de la decisió sobre com serà aquesta nova societat digital.