Saltar al contingut principal

El tractament de les dades personals al sector públic

Nombre de lectures: 0

Unitat 8. Tecnologies emergents, intel·ligència artificial i protecció de dades

8.1 Què són les tecnologies emergents?

Les tecnologies emergents són les tecnologies en vies de desenvolupament que tenen un alt potencial disruptiu.

És comú que durant aquest desenvolupament les tecnologies emergents passin per diferents fases segons el nivell de desenvolupament, les expectatives generades i les aplicacions concretes. La consultora tecnològica Gartner publica anualment un gràfic amb l’estat de les tecnologies emergents en l'àmbit de les tecnologies de la informació. El següent correspon al 2022.

El gràfic mostra una alta volatilitat en les expectatives de les tecnologies emergents: creixen molt ràpidament en la primera fase de desenvolupament, fins que la incapacitat de donar resposta a totes les expectatives fa que caiguin, i aleshores l’aparició d’aplicacions productives les torna a fer créixer, però d'una manera més gradual.

8.2 Què és la intel·ligència artificial?

Els darrers anys hem viscut un gran desenvolupament de la intel·ligència artificial (IA), que ha anant acompanyat de múltiples aplicacions comercials. Malgrat això, l’inici de la IA es remunta a mitjan segle passat. El 1956 es va utilitzar el terme intel·ligència artificial per primer cop.

Alan Turing, en un article publicat el 1950, es va demanar si les màquines poden pensar. En aquest mateix article va proposar el conegut test de Turing (o, com ell el va anomenar, el joc de la imitació). Deixant de banda qüestions més filosòfiques, com ara què és una màquina i què és pensar, el test de Turing fixa un criteri per determinar quan una màquina exhibeix un comportament intel·ligent semblant al d’un ésser humà.

En la forma més bàsica, en el test de Turing intervé un interrogador humà (C) i dos jugadors, una computadora (A) i un humà (B). L’interrogador no sap quin dels dos és la computadora i ha de tractar de determinar-ho fent preguntes que A i B han de respondre per escrit. La computadora supera el test de Turing si aconsegueix enganyar l’interrogador fent-li creure que és l’humà.

El test de Turing té una visió antropocèntrica de la IA, ja que l’objectiu de la computadora és fer-se passar per un humà. Avui dia, la IA s’ha apartat una mica d’aquesta visió i ha passat a una visió centrada en l’actuació racional.

8.2.1 Definició bàsica

En l'àmbit intuïtiu podem dir que la IA és la intel·ligència que exhibeixen les màquines (en contraposició a la intel·ligència natural que exhibeixen els animals). D’aquesta manera, un sistema computacional és intel·ligent quan percep el seu entorn i pren les accions més adients per assolir els seus objectius.

A la pràctica, el desenvolupament d’un sistema d’IA implica triar un model (per exemple, un model basat en regles o una xarxa neuronal), ajustar-lo a la tasca que ha de desenvolupar (per exemple, dotant-lo de les regles necessàries en el cas del model basat en regles o portant a terme el procés d’entrenament a partir de les dades disponibles en el cas d’una xarxa neuronal), i verificar el funcionament en diferents situacions.

8.2.2 Intel·ligència artificial general, intel·ligència artificial feble

La definició anterior és molt general i pot encabir-hi sistemes amb nivells d’intel·ligència molt dispars. Actualment, els sistemes d’IA fan les tasques per a les quals han estat dissenyats, moltes vegades amb una precisió més gran que els experts humans en la matèria. Ara bé, aquests sistemes no tenen utilitat fora de l’àmbit concret per al qual han estat dissenyats; és el que es coneix com a "IA feble".

En contraposició, la IA general es refereix a la capacitat d’un sistema per poder aprendre i portar a terme qualsevol tipus de tasca. En aquests moments encara no s’ha aconseguit aquest nivell de desenvolupament. Si es porta la IA general a l’extrem, es parla de la singularitat: el punt en què la IA superarà les capacitats de la intel·ligència humana. S’ha especulat molt sobre les conseqüències que podria tenir això.

8.3 Aprenentatge automàtic

L’aprenentatge automàtic és el camp de la IA que s’encarrega de desenvolupar algoritmes que aprenen a partir de l’experiència. Generalment, això vol dir que aprenen a partir de dades, tot i que hi ha casos (per exemple, AlphaZero) en què l’algoritme aprèn sense dades a força d’interactuar amb l’entorn i veure quin és el resultat.

Aquests algoritmes són especialment útils en les tasques en les quals no és possible donar un algoritme convencional (una seqüència de passos concrets que resolen un problema), com ara en filtres de correu brossa, visió per computador o redacció de textos. Durant la fase d’entrenament s’ajusta el comportament de l’algoritme sobre uns casos concrets (dades d’entrenament) amb l’esperança que si es comporta bé sobre aquests casos també ho faci sobre casos nous.

Atès el gran èxit, les xarxes neuronals i, més en particular, l'aprenentatge profund (deep learning) (xarxes neuronals complexes amb múltiples capes) són l’exemple més habitual d’aprenentatge automàtic. Ara bé, aquest tipus d'aprenentatge s’utilitza en molts altres models. Per exemple, els sistemes basats en regles també poden utilitzar l’aprenentatge automàtic per deduir les regles que cal aplicar a partir de les dades.

Si bé les dades són un punt clau perquè el sistema aprengui, la validació de la qualitat de l’aprenentatge és igualment important. És a dir, abans d’aplicar el sistema, cal validar que funciona com s’espera sobre casos diferents dels de les dades d’entrenament. Això és fa dividint les dades en un conjunt d’entrenament i en un altre de test. El model s’ajusta a les dades d’entrenament i posteriorment es valida la precisió que ha tingut sobre les dades de test. Val a dir que hi ha altres esquemes més sofisticats per partir les dades que s’utilitzen per resoldre altres problemàtiques.

La complexitat d’un model determina la seva capacitat per aprendre. Com més complex sigui un model (és a dir, com més paràmetres tingui) més complexes seran les relacions que podrà modelar. A l’hora de fer aquesta tria, cal tenir en compte dos problemes potencials: l'underfitting i l'overfitting. Underfitting fa referència a un model que no és prou complex per modelar la relació entre entrades i sortida. Overfitting fa referència a la situació contrària: un model massa complex que, en comptes de modelar la relació entre entrades i sortides generals, captura les especificitats d’aquestes dades d’entrenament.

8.3.1 Principals paradigmes

Quan parlem d’aprenentatge automàtic simplement estem dient que el model s’ajusta automàticament a partir de l’experiència. Ara bé, la manera en què es produeix aquest aprenentatge és variada. Destaquem els tres paradigmes d’aprenentatge automàtic principals.

Aprenentatge supervisat

En l’aprenentatge supervisat es dona al sistema unes dades d’entrenament amb uns valors d’entrada i uns de sortida; en diem "dades etiquetades". L’objectiu és que el sistema aprengui la relació entre valors d’entrada i de sortida.

Aprenentatge no supervisat

En l’aprenentatge no supervisat el sistema aprèn relacions a partir de dades que no han estat etiquetades prèviament. Amb aquest tipus de dades el sistema pot aprendre patrons, zones on hi ha més concentració de punts, etc.

Per exemple, si tenim dades de les compres dels clients d’un supermercat, el sistema podria aprendre quins tipus de productes s’acostumen a comprar conjuntament. Aquesta informació la pot explotar el supermercat de diverses maneres: per distribuir els productes al supermercat de manera que s’incrementin les vendes, per enviar-nos ofertes sobre productes relacionats amb la nostra cistella de compra, etc.

Aprenentatge per reforç

L’aprenentatge per reforç s’utilitza per entrenar agents intel·ligents. Amb el terme agent fem referència al fet que el sistema que percep l’entorn pren accions i veu quin és el resultat (premi o càstig) d’aquestes accions.

Per exemple, considerem el cas d’un sistema per jugar als escacs. El sistema és capaç de percebre l’estat actual (la posició de les peces al taulell), pot moure una peça (perquè coneix les regles dels escacs) i veu quin és el resultat del moviment (pot determinar quan s’ha guanyat o s’ha perdut, però també si un conjunt de moviments ens apropa a un estat més o menys desitjable).

Durant l’aprenentatge per reforç, l’agent va explorant les diverses accions que es poden prendre en cada estat concret i ajusta la preferència que s’hi assigna segons com de desitjable sigui el resultat que s’obté en aplicar-les.

8.4 Intel·ligència artificial confiable

Atesa la gran quantitat d’aplicacions de la IA i el gran impacte que poden tenir, cal que la IA sigui confiable. Diem que un sistema és confiable quan es comporta consistentment de la manera esperada. En el cas d’un pont, per exemple, podria voler dir que es compleixen els paràmetres de resistència per als quals es va dissenyar. En el cas de la IA, la confiabilitat s’expressa en funció d’un conjunt de propietats: precisió, robustesa, equitat, responsabilitat, explicabilitat i comportament ètic, entre d'altres. Ens centrarem en dues d’aquestes característiques: explicabilitat i equitat.

8.4.1 Explicabilitat

Diem que un sistema d’IA és explicable quan som capaços d’entendre per què s’ha arribat a una conclusió concreta. De vegades també s’utilitza el terme “transparència”.

L’explicabilitat en IA té l'origen a la dècada dels setanta del segle passat, en el context dels sistemes experts. Eren uns sistemes que incorporaven el coneixement d'experts humans mitjançant regles que s'introduïen manualment. El fet de ser sistemes basats en regles feia que tinguessin, per defecte, un grau d'explicabilitat alt: tota resposta es podia explicar a partir de les regles aplicades.

Actualment, la complexitat dels models més utilitzats fa que no sigui possible donar una explicació del perquè d’un resultat concret. Per exemple, hi ha models basats en aprenentatge profund que utilitzen bilions de paràmetres. Davant la incapacitat d’entendre el funcionament d’aquests sistemes tan complexos, es diu que funcionen com una caixa negra: sabem l’entrada i la sortida, però no com es genera la sortida a partir de l’entrada.

D'altra banda, el gran impacte que tenen per a les persones algunes de les aplicacions de la IA ha posat en relleu la importància de tenir una explicació de la decisió presa. Els darrers anys això s’ha traduït en un increment en la recerca en intel·ligència artificial explicable (XAI, en anglès).

La utilitat d’obtenir una explicació va més enllà de l’interès que pugui tenir l’usuari a entendre la decisió que ha pres el sistema. Inclou les finalitats següents:

  • Explicar per justificar. Les controvèrsies per tracte discriminatori són una constant en moltes de les aplicacions de la IA.
  • Explicar per controlar. Tenir una explicació de les decisions preses permet als operadors del sistema revisar si les decisions són adequades, detectar les fallades amb més rapidesa i solucionar-les abans que tinguin conseqüències importants.
  • Explicar per millorar. Les explicacions d’un sistema d'IA ens permet detectar les decisions que no són òptimes i així poder millorar el sistema.
  • Explicar per descobrir. Tenir una explicació de les decisions preses pel sistema d'IA és una font de coneixement.

8.4.2 Equitat

Els sistemes d'IA haurien de contribuir a tenir una societat més equitativa i, per tant, sense discriminació per raça, ètnia, discapacitat, edat, identitat o expressió de gènere, religió, orientació sexual, situació econòmica, etc. Per "discriminació" entenem el fet de tractar algú de manera diferent per ser qui és; és a dir, per raons que no tenen res a veure amb l'assumpte en qüestió.

Afortunadament, la IA no té prejudicis. Els algoritmes d'IA són només models matemàtics que s'ajusten a la realitat subjacent com a resultat d’un procés d’entrenament. Tanmateix, el fet que els algoritmes d'IA no tinguin prejudicis no impedeix que la IA prengui decisions esbiaixades. Les següents són fonts notables de biaix en les decisions d’IA:

  • Dades d'entrenament esbiaixades. Els conjunts de dades d'entrenament són una descripció d'una realitat subjacent que volem modelar. En la mesura que el biaix és present en molts aspectes de la nostra societat, és probable que sigui present a les dades d'entrenament. Un model d'IA entrenat amb dades esbiaixades retornarà resultats esbiaixats.
  • Conjunts de dades d'entrenament desequilibrades. Durant l’entrenament s’ajusta el model perquè minimitzi l’error sobre les dades d’entrenament. Si una classe de persones està infrarepresentada a les dades d'entrenament, la importància relativa d'aquestes persones en la precisió general disminueix i és probable que el model entrenat sigui menys precís per a elles.
  • Ús d'un model d'IA inadequat. La capacitat d'un model per representar la realitat subjacent és essencial perquè les respostes siguin precises. Entre d'altres, el tipus de model d'IA, el tipus d'atributs (també característiques) incorporats i fins i tot l'estratègia d'entrenament són factors a tenir en compte.

Fins i tot si ho féssim tot bé, seria poc probable que tothom considerés que el sistema és infal·lible. El principal problema és que cada part interessada pot tenir un concepte diferent sobre l’equitat i que no és possible satisfer totes les visions alhora.

El sistema de predicció de reincidència criminal COMPAS il·lustra aquesta dificultat. L’objectiu de Northpointe, el desenvolupador, és obtenir la màxima precisió i entrenar el sistema perquè no hi hagi biaix estadístic (d’un grup de persones classificades amb un tant per cent de risc de reincidència, reincideixen exactament el tant per cent de persones). D’altra banda, ProPublica argumenta que COMPAS discrimina perquè la taxa de falsos positius és el doble per a les persones negres. És a dir, que les persones negres que no reincideixen tenen gairebé el doble de probabilitats de ser classificats erròniament com d'alt risc. Aquest tracte diferencial es produeix encara que la raça no s'inclou entre els atributs que tracta COMPAS. El problema és que són dos objectius incompatibles; evitar el tracte diferencial condueix a una reducció en la precisió del sistema. El compromís que ha d’adoptar el sistema és, per tant, una qüestió que s’ha d’abordar des d’un punt de vista ètic, tenint en compte els drets de les persones afectades.

8.5 El dret a la protecció de dades en el context de les tecnologies emergents i, singularment, de la intel·ligència artificial

Tot i que els principals aspectes del dret a la protecció de dades ja han estat exposats al llarg del curs, en aquest apartat es fa especial èmfasi a alguns d'aquests aspectes, en tant que estan vinculats a la protecció de dades quan el tractament de la informació es duu a terme mitjançant l’aplicació de tecnologies emergents i, en particular, la IA.

El Tribunal Constitucional, tal com recull la Sinopsi de l’article 18 de la Constitució espanyola, ha apuntat que l’origen del dret a la protecció de dades s'inclou a l'article 18.4 de la CE: “La llei ha de limitar l’ús de la informàtica per garantir l’honor i la intimitat personal i familiar dels ciutadans i el ple exercici dels seus drets.” És a dir, que s’erigeix com un límit a determinats usos informàtics per garantir el conjunt dels drets que ens són propis (si bé el dret a la protecció de dades personals comprèn les dades encara que no es tractin de manera automatitzada).

Al seu torn, les tecnologies emergents i, en especial, la IA es troben estretament lligades a l’ús de la informàtica, de manera que, ja en un pla teòric, s’observa un fort vincle entre el dret a la protecció de dades i aquestes tecnologies.

No obstant això, la vinculació entre les dades i les tecnologies emergents i la IA també ocorre des d’un punt de vista estrictament d’utilitat.

8.5.1 La importància de les dades per a les tecnologies emergents, en general, i per a la intel·ligència artificial en particular

Hi ha infinitat d’exemples que denoten la creixent generació d’informació (dades). Únicament a efectes il·lustratius, qui llegeix llibres a través d’un dispositiu de lectura està transmetent informació sobre què llegeix, la velocitat de lectura, el que subratlla, si abandona el llibre en quin punt ho fa, etc. De manera similar, mentre que no fa gaires anys s’escoltava la ràdio, CD o cassets sense que es transmetés cap informació, avui dia s'utilitzen multitud de serveis de música mitjançant reproducció en continu (streaming) que recullen múltiples informacions dels usuaris. El mateix succeeix amb el visionament de vídeos i, en termes més globals, amb les compres efectuades en gran quantitat per mitjans electrònics. En definitiva, a mesura que s’han anat “digitalitzant” productes físics –per no fer menció de mitjans de captació d’informació de la internet de les coses (idC)–, la interacció digital ha conduït a generar abundant informació.

La gran majoria de tecnologies emergents i la IA tenen en comú l’ús d’instruments informàtics per explotar totes les possibilitats que ofereix la tendència a la digitalització i, més concretament, les dades que es generen.

Un exemple paradigmàtic el constitueix la IA mateix, per a la qual les dades no només són un input indispensable, sinó el factor que ha desencadenat -juntament amb les possibilitats del seu tractament a través de la convergència de diferents tecnologies- els avenços més significatius en aquest àmbit. En la il·lustració següent es pot observar que el temps mitjà entre els avenços i la disponibilitat de les dades és de “només” 3 anys, mentre que el temps mitjà entre els algoritmes aplicats per aconseguir els mateixos avenços i el moment en què aquests van tenir lloc és de 18 anys. Aquesta estadística demostra com la disponibilitat de les dades és fins i tot més crítica que no pas els algoritmes mateixos.

Oriol Vinyals. AI & BIG DATA CONGRESS 02: Keynote speaker. Deep Learning Toolbox el 2020

El legislador europeu és plenament conscient de la importància pràctica de les dades. Tant és així que, malgrat que col·loquialment es fa referència a la principal norma de garantia del dret a la protecció de dades en l'àmbit europeu com el “Reglament europeu de protecció de dades”, en realitat el seu títol complet és “Reglament (UE) 2016/679 del Parlament Europeu i del Consell de 27 d’abril de 2016 relatiu a la protecció de les persones físiques en allò que respecta al tractament de dades personals i a la lliure circulació d’aquestes dades i pel qual es deroga la Directiva 95/46/CE (Reglament general de protecció de dades)” (en endavant, “Reglament 679/2016"). En altres termes, el legislador és tan conscient de la importància d’aquestes dades que a través d'aquest Reglament es persegueix un equilibri entre la protecció d’aquestes dades i la seva lliure circulació.

8.5.2 Les dades personals com a condició necessària per al dret a la protecció de dades

Resulta especialment transcendent tenir en compte que el dret a la protecció de dades es projecta exclusivament envers les dades personals. Així doncs, el dret a la protecció de dades no protegeix qualsevol tipus d’informació sinó únicament les dades que són informacions sobre una persona física identificada o identificable.

Són dades personals, entre d'altres, el nom, un número d’identificació, dades de localització i altres dades que a priori potser no s’està acostumat a considerar personals, com ara dades de consum elèctric (segons la STS de 12 de juliol de 2019).

Així mateix, cal assenyalar que hi ha una tipologia de dades de categoria especial que correspon a les que revelen l'origen ètnic o racial, les opinions polítiques, les conviccions religioses o filosòfiques o l'afiliació sindical i que comprenen també les dades genètiques, les dades biomètriques destinades a identificar de manera unívoca una persona física i les dades relatives a la salut, a la vida sexual o a les orientacions sexuals d'una persona física. Les dades personals de categoria especial gaudeixen d’una protecció reforçada.

A l'últim, cal tenir present l’existència d’un component dinàmic en la determinació de si una dada concreta és personal o no. Així, en la mesura que una dada és personal quan és possible atribuir-la a una persona física o identificable, l’evolució de la tecnologia pot fer que una dada que en un moment determinat no era possible atribuir-la a una persona física en concret, posteriorment, sí que ho sigui.

8.5.3 La protecció de dades des del disseny i per defecte

Per tal d’aconseguir una protecció de dades efectiva, l'article 25 del Reglament 679/2016 determina la protecció de dades des del disseny i per defecte. Per tant, ja des del moment que es dissenyi un servei o aplicació s'han d'aplicar les mesures tècniques i organitzatives adequades, com ara la minimització de dades i altres garanties per aplicar de manera efectiva els principis de la protecció de dades personals, per garantir el compliment de la normativa de protecció de dades i els drets i les llibertats de les persones interessades, i que, sense que sigui indispensable la mediació de cap acció per part de l’usuari (per defecte), únicament es tractin les dades personals i es duguin a terme els tractaments que siguin necessaris per a cadascuna de les finalitats.

Tal com s’ha apuntat, la protecció de dades des del disseny té per objecte garantir, a cada moment i ja des d’un bon inici, la satisfacció de les obligacions que dimanen dels principis relatius al tractament que estan recollits expressament a l’article 5 del Reglament 679/2016. En concret, partint d'aquests principis, les dades personals han de ser:

  • a. Tractades de manera lícita, lleial i transparent en relació amb l'interessat (“licitud, lleialtat i transparència”).
  • b. Recollides amb finalitats determinades, explícites i legítimes i posteriorment no s’han de tractar de manera incompatible amb aquestes finalitats (“limitació de la finalitat”).
  • c. Adequades, pertinents i limitades a allò que és necessari en relació amb les finalitats per a les quals es tracten (“minimització de dades”).
  • d. Exactes i, si cal, s’han d’actualitzar (“exactitud”).
  • e. Conservades de manera que permetin identificar els interessats durant un període no superior al necessari per a les finalitats del tractament de dades personals (“limitació del termini de conservació”).
  • f. Tractades de manera que se’n garanteixi una seguretat adequada (“integritat i confidencialitat”).

A continuació es fan unes breus consideracions en relació amb els principis que es considera que presenten més singularitat en la confluència entre el dret a la protecció de dades i les tecnologies emergents (IA).

Licitud, limitació de la finalitat i lleialtat

Derivat del gran potencial de les dades (i en particular de les dades personals) hi ha un elevat desig, en especial per part d’entitats que empren tecnologies emergents i IA, per recopilar i tractar dades personals.

Ara bé, per poder recopilar i tractar dades personals és necessari que concorri una de les condicions de licitud establertes per l’article 6 del Reglament 679/2016 i, en cas que es tracti de dades de categoria especial, a més, cal que hi hagi una de les circumstàncies incloses a l’article 9.2 del Reglament 679/2016.

Amb caràcter previ a la determinació de la licitud, cal haver definit de manera adequada i precisa la finalitat perseguida amb el tractament, en tant que resulta imprescindible per poder establir quina o quines bases de licitud poden fonamentar el tractament. Aquesta tasca de definició de la finalitat constitueix un repte particularment rellevant en el marc de les tecnologies emergents i la IA, atès que, d'una banda, el conjunt de dades pot ser emprat per a múltiples finalitats i, de l'altra, les tecnologies emergents i la IA també es caracteritzen per la seva potencial aplicació a múltiples àmbits.

En concret, la dificultat de determinar l’objectiu perseguit és més elevada quan s’utilitzen algoritmes que s’entrenen en un entorn d’aprenentatge no supervisat i extreuen informació de les dades (patrons, correlacions, etc.), ja que, en tant que aquesta informació no es coneix per avançat, es pot posar en dubte si es compleix la limitació de finalitat que difícilment s'haurà pogut determinar amb precisió.

Un altre supòsit especialment sensible des de l’òptica de la protecció de dades consisteix en la reutilització de les dades recollides per part d’un altre agent econòmic amb una finalitat diferent de la que inicialment va permetre obtenir aquella informació. Es tracta d’una situació que contravindria diferents principis, com ara el de la licitud, el de la limitació de la finalitat i el de la lleialtat, de manera que, malgrat els avantatges evidents que podria comportar per a les corporacions, no seria possible en termes generals.

I és que, tot i la versatilitat de les dades i de les tecnologies per explotar-les, cal ser precís en la determinació de la finalitat perseguida, una precisió que, a més -en virtut del principi de lleialtat i de limitació de la finalitat-, cal que es mantingui a cada moment; és a dir, l’ús que es fa de les dades ha de ser previsible per als ciutadans a cada moment. Per tant, qualsevol modificació requereix que es replantegi integralment la base de licitud que justifica el tractament i que es comuniqui adequadament als titulars de les dades.

Val a dir que en l’apartat b in fine de l’article 5 hi ha una excepció a aquesta limitació de la finalitat quan la “nova” finalitat que es pretén dur a terme consisteix en una finalitat de "recerca científica o històrica, o amb finalitat estadística” i en el considerant 159 del Reglament 679/2016 s’assenyala que el concepte de "recerca científica” s’ha d’interpretar de manera àmplia de tal manera que, per exemple, comprèn “el desenvolupament tecnològic i la demostració, la recerca fonamental, la recerca aplicada i la recerca finançada pel sector privat”. En conseqüència, es podrien reutilitzar dades, per exemple, en l’àmbit de la IA si es pot sostenir de manera reeixida que la tasca que es pretén dur a terme és assimilable al concepte de "recerca científica”.

Minimització

El principi de minimització determina que les dades utilitzades en un tractament han de ser adequades, pertinents i limitades a allò estrictament necessari per assolir la finalitat del tractament.

Particularment en l’àmbit de la IA, l’aplicació d’aquest principi és especialment delicat, ja que un funcionament adequat de la IA depèn en gran manera de les dades que es proporcionen al sistema per ser entrenat. Així, a priori, com més volum de dades millor ha pogut aprendre el sistema i, per tant, més fiables/acurades són les seves previsions.

Per tant, disminuir el volum de dades per sota d’un determinat nivell pot implicar una relativa pèrdua en termes de precisió estadística i comportar que apareguin certs biaixos i discriminacions que, en el marc d’un elevat volum de dades, quedin diluïts.

Tot i això, aquesta reflexió no implica de cap manera que no s'hagi d’aplicar el principi de minimització, sinó que el repte és trobar el punt d’equilibri adequat en termes de protecció de dades i d’adequat funcionament de la IA, de tal manera que es pugui concretar que únicament es poden recopilar i tractar les dades que es considerin indispensables.

Per valorar adequadament aquesta “necessitat” o “indispensabilitat” és imprescindible tenir clarament definida la finalitat perseguida, ja que l’anàlisi consisteix precisament a contraposar les dades en relació amb l’objectiu a assolir i, en concret, preguntar-se si la informació és necessària/indispensable per poder-lo aconseguir. Ara bé, tal com s’ha apuntat prèviament, la determinació de la finalitat és particularment complexa atesa la versatilitat de les dades i de les tecnologies emergents (i la IA).

Des d’un punt de vista tècnic, hi ha diverses tècniques que permeten reduir/minimitzar l’ús de dades personals, però en destaca l’ús de dades sintètiques (dades artificials que reprodueixen les característiques de les dades originals) o dades anonimitzades (dades en què s’ha trencat l’enllaç amb la persona que les ha originat). En tots dos escenaris la implantació de les tècniques indicades possibilita dur a terme el processament de dades sense ni tan sols utilitzar dades personals, ja que en ambdós casos no hi ha vincle entre la informació i persones concretes.

Transparència

La transparència és un dels pilars bàsics del dret a la protecció de dades, ja que es tracta d’una condició necessària perquè els ciutadans puguin exercir els drets, ja que si no coneixen a quins tractaments són sotmeses les seves dades no podran, per exemple, oposar-s’hi.

En el cas de tecnologies emergents i, en particular, de la IA, l'aplicació correcta d’aquest principi també constitueix un repte, ja que, entre els aspectes dels quals cal informar els usuaris, un és el de les conseqüències previstes del tractament que es duu a terme. En aquest sentit, segons el concepte de "tecnologies emergents” mateix, entre les quals es trobaria la IA, eventualment el responsable del tractament es pot trobar amb conseqüències no previstes, atès el prematur estat de desenvolupament de la tecnologia implementada i els riscos que li són inherents, com els biaixos (exposats a l’apartat 4.1). En conseqüència, tal com s’exposarà amb més deteniment a l’apartat 5.4, l’aplicació de tecnologies emergents exigeix una especial cautela i capteniment.

Cal, a més, tenir present que el principi de transparència exigeix que tota la informació que es proporciona a les persones sigui entenedora, de tal manera que el compliment adequat d’aquesta obligació requereix un esforç d’explicar en termes senzills aspectes tècnics complexos i poc coneguts pels ciutadans, atès que es tracta de tecnologies emergents. Aquest principi està especialment vinculat a l’explicabilitat de les tecnologies (tal com s’ha apuntat a l’apartat 4.1).

8.5.4 L'ús de tecnologies emergents i el dret a la protecció de dades

L’ús de tecnologies emergents comporta riscos inherents a la circumstància derivada d’aquesta falta de maduresa de la tecnologia que s’empra.

El dret a la protecció de dades determina (art. 35 del Reglament 679/2016) que, en particular, quan s’utilitzen noves tecnologies per dur a terme un tractament de dades del qual sigui probable que es pugui derivar un elevat risc per als drets i les llibertats de les persones físiques, amb caràcter previ a iniciar aquest tractament el responsable ha de fer una avaluació de l’impacte de protecció de dades (AIPD). En la mateixa línia, la proposta del Reglament d’intel·ligència artificial conté una referència expressa a les AIPD (art. 29.6).

L’objectiu de l’avaluació d’impacte consisteix a anticipar els riscos entesos com a possibles impactes negatius en termes de drets i llibertats; és a dir, no només impactes negatius en termes de protecció de dades sinó en relació amb el conjunt de drets i llibertats.

A títol d’exemple, en el cas de la IA cal determinar si hi ha riscos de discriminació en els resultats que es derivin del tractament.

El procés per dur a terme una anàlisi d’impacte consisteix, entre d'altres, a definir les dades que seran objecte de processament, el nombre de subjectes afectats pel processament, la font de les dades i fins a quin punt els ciutadans són coneixedors del tractament. L’APDCAT ha confeccionat i ha posat a disposició una plantilla i una aplicació per dur a terme adequadament les avaluacions d’impacte.

L’article 36 del Reglament 679/2016 especifica que si de l’avaluació d’impacte es desprèn que el tractament pot comportar un elevat risc per als drets i les llibertats si el responsable no adopta mesures per mitigar-lo, el responsable necessàriament ha de consultar l’autoritat de control.

En tot cas, l’objectiu últim de l’avaluació d’impacte consisteix a establir les mesures de seguretat adequades per reduir el risc per als drets i les llibertats fins que assoleixi un nivell de risc tolerable/acceptable.

El Reglament 679/2016 es limita a apuntar en termes genèrics que cal aplicar mesures de seguretat tenint en compte diferents variables (l’estat de la tècnica, els costos d’aplicació, la naturalesa, l’abast, el context i la finalitat del tractament, així com els riscos de probabilitat i gravetat variables per als drets i les llibertats de les persones físiques) i recull algunes mesures que contribueixen a una seguretat més elevada, com ara la pseudonimització i el xifratge de dades personals.

La implementació de mesures de seguretat és especialment necessària en un context d’utilització de tecnologies emergents. Per això, malgrat que pugui no ser d’aplicació directa, és recomanable que es considerin el conjunt de mesures de seguretat que recull, per exemple, l'Esquema Nacional de Seguretat.

8.5.5 Les decisions automatitzades (mitjançant l'aplicació d'IA) i el dret a la protecció de dades

Certes aplicacions prenen decisions fent ús d’IA. En concret, basades en els perfils de les persones (les característiques d’una persona que els dissenyadors de l’algoritme han considerat rellevants). Així, per exemple, es poden utilitzar sistemes d'avaluació (scoring) de crèdit per determinar la concessió o no d’un crèdit o emprar sistemes de classificació automàtica per preseleccionar candidats per a un determinat lloc de feina.

Emprar algoritmes per prendre decisions com a substitut de raonaments humans implica un cert risc inherent propi de l’ús de tecnologies emergents i, en particular en el cas de la IA, de garantir que els resultats són adequats (algoritmes prou entrenats i generals per ser aplicables a diferents supòsits) i que no responen a biaixos o discriminacions. En aquest sentit, és recomanable intentar verificar que l’adopció d’aquesta tecnologia millora els resultats que s’obtindrien en absència d'aquesta.

A més, l’ús de sistemes automatitzats implica la inexistència d’intervenció humana, circumstància que, al seu torn, impossibilita la persona afectada per la decisió d’efectuar un raonament per rebatre-la. Sovint, ni tan sols és possible conèixer detalladament com el sistema de decisió automatitzada ha arribat a aquella decisió.

En atenció a aquesta circumstància, l’article 22 del Reglament 679/2016 estableix el dret “a no ser objecte d’una decisió basada únicament en el tractament automatitzat, incloent-hi l’elaboració de perfils, que produeixi efectes jurídics en ella o l’afecti significativament de manera similar”. És a dir, en els casos que la decisió automatitzada comporti efectes significatius per a les persones cal que hi hagi intervenció humana.

Tot i que sovint s’indica que l’article 22 ofereix protecció específica davant de decisions automatitzades, cal no ometre altres proteccions com ara els principis de protecció de dades (art. 5 del Reglament 679/2016), les bases de licitud (art. 6 i 9), els drets de transparència i accés (art. 13-15) i el deure de dur a terme una anàlisi d’impacte de protecció de dades (art. 35).

Un d’aquests principis és el de transparència, que pren una rellevància especial en l’àmbit de l’aplicació d’algoritmes que prenen decisions, fins i tot quan a priori no tenen efectes jurídics per als ciutadans. El motiu és que l’asimetria informativa entre els usuaris i el funcionament de l’algoritme és molt significativa. Tant és així que quan Sergey Brin i Lawrence Page van crear Google, en el document universitari on el van presentar van dedicar l’apèndix A a advertir sobre els riscos derivats del fet que, fins i tot per als experts, resultava extremadament difícil poder determinar quan un cercador tenia un biaix, de tal manera que qui gestionés el cercador podria, per exemple, decidir no publicar una notícia dels riscos d’utilitzar el telèfon mòbil mentre es condueix perquè un dels seus anunciants és una important companyia de telefonia mòbil i ometre la informació o relegar-la a posicions més amagades entre els resultats mostrats.

The Anatomy of a Large-Scale Hypertextual Web Search Engine

També prenent en consideració aquesta circumstància, el Reglament 679/2016 conté diverses determinacions relatives a la transparència en la presa de decisions automatitzades. Ja al considerant 71 es reconeix el dret a “rebre una explicació de la decisió adoptada” i als articles 13.2.f i 14.2.g, el dret a obtenir la informació significativa sobre la lògica aplicada així com la importància i les conseqüències previstes del referit tractament per a l’interessat. Tot i que, com s’ha assenyalat, explicar adequadament la lògica que ha conduït a adoptar una decisió automatitzada és particularment complex.

A l'últim, cal indicar que el Future of Privacy Forum recentment ha fet públic un estudi sobre la jurisprudència rellevant en relació amb la presa de decisions automatitzades, en el qual, entre altres aspectes, s’analitzen els llindars per a l’aplicabilitat de l’article 22 del Reglament 679/2016 en el sentit d’interpretar quan una decisió es basa únicament en criteris automatitzats i quan es considera que la decisió comporta efectes jurídics o una afectació significativa de manera similar.

8.5.6 La protecció de dades: la millor protecció davant dels riscos que plantegen les tecnologies emergents (incloent-hi la intel·ligència artificial)

Les tecnologies emergents i de manera singular la IA tenen un potencial enorme, fins al punt que molt probablement provocaran un profund canvi social sense precedents. Canvis que poden ser positius, però, malauradament, també poden afectar els nostres drets i llibertats.

En altres termes, les tecnologies emergents i la IA impliquen unes amenaces que, en alguns casos, ja s’han materialitzat, ja sigui a través de sistemes complexos -com el del crèdit social implantat a la Xina-, com mitjançant aplicacions més senzilles -els sistemes de recomanació de contingut digital que pot donar lloc al filtre bombolla o els sistemes de publicitat personalitzada que poden condicionar el resultat d’eleccions polítiques, com va fer evident el cas de Cambridge Analytica.

Crèdit social xinès

La Xina fa un ús molt invasiu de la IA per controlar la població. El conegut sistema de crèdit social aplica una vigilància massiva (tant en línia com a la via pública amb càmeres que utilitzen reconeixement facial). Del perfilatge de les persones es deriva una puntuació que s’utilitzarà per premiar o per castigar. Per exemple, el teu crèdit social pot determinar si pots viatjar, si tens accés a certes escoles o universitats, etc.

Filtre bombolla

Els sistemes de recomanació han estat un gran èxit comercial. Per exemple, s’utilitzen en les plataformes de vídeo per recomanar-te pel·lícules o en una botiga en línia per recomanar-te determinats articles de consum. Tot i que aquests usos no presenten gaires problemes, és clar que limiten les possibilitats d’elecció de les persones, ja que, en ser presentades amb unes opcions més destacades, els estan guiant cap a aquestes. L’objectiu és obvi: incrementar el consum.

No obstant això, hi ha usos dels sistemes de recomanació que són especialment problemàtics. Per exemple, l'ús en la recomanació de notícies. Actualment, una gran part de la població accedeix a les notícies virtualment, de manera que és possible mostrar un contingut diferent a cadascú en funció del seu perfil. Ara bé, quan aquesta personalització és massa intensa, pot ser que a aquesta persona només se li presenti una part de la realitat, probablement la que s’ajusta més a la seva manera de pensar, de manera que és possible que acabi radicalitzant-la (ja que ni tan sols entra en contacte amb visions alternatives).

Cas Cambridge Analytica

El 2014, Cambridge Analytica va recollir dades de milions de persones sense el seu consentiment i les va utilitzar per donar suport a la campanya electoral de Trump.

Les dades es van recollir a través de l’app “This is your digital life”. En principi aquesta era una app que permetia respondre a un qüestionari que s’utilitzaria amb finalitats acadèmiques. Es va pagar a unes desenes de milers de persones per fer el qüestionari. En realitat, l’app va recollir la informació del perfil no només d’aquestes persones, sinó també dels seus amics, de manera que va donar lloc a una violació de la privacitat que va afectar més de 80 milions de persones.

Les dades es van utilitzar a la campanya electoral de Trump per personalitzar la publicitat electoral que es feia arribar a cada potencial elector, fent èmfasi en les coses que, segons el seu perfil, podien preocupar més a cadascú.

La primera notícia del que va acabar sent un escàndol va aparèixer al diari britànic The Guardian al final del 2015. Més endavant, el 2018, un extreballador de Cambridge Analytica va revelar els detalls del cas.

Facebook va ser conscient de la filtració massiva de dades des del 2015 però no va fer res per mitigar els riscos que se'n van derivar. El cas va acabar amb la imposició d’una multa milionària per a Facebook i amb la desaparició de Cambridge Analytica.

En tot cas, Cambridge Analytica no és l'única empresa que feia publicitat dirigida en funció del perfil psicològic de les persones. Va ser la magnitud de l’assumpte el que va fer que el cas de Cambridge Analytica captés l’atenció mediàtica en l'àmbit internacional.

Així doncs, tot i l’enorme potencial positiu que pot derivar de l’adopció de tecnologies emergents i de la IA, cal ser molt prudent a l'hora d'implementar-les i sempre considerar-ne els significatius riscos que pot implicar en relació amb el conjunt de drets i llibertats dels ciutadans, que, només a partir dels tres exemples citats, ja s’observa que podrien afectar drets tan essencials com la llibertat d’informació, la democràcia o la pròpia llibertat de les persones en el sentit més ampli del terme.

Aquesta prudència requereix valorar de manera crítica i detinguda l’adopció d’aquestes tecnologies i també adoptar mesures de protecció adequades. Entre les mesures de protecció destaca la preservació de les dades personals, ja que, tal com s’indicava a l’inici d’aquest apartat, les dades són un input essencial del conjunt de tecnologies emergents i també de la IA. Així mateix, cal tenir present que darrere de cada dada personal hi ha sempre una persona.

En definitiva, les teves dades són els teus drets. Protegir-les implica preservar el conjunt de drets i llibertats, ja que necessàriament limita l’impacte negatiu que pot comportar la implantació de les tecnologies emergents i de la IA.

I, per aconseguir una protecció adequada, és especialment útil estar al dia de les novetats de la regulació de les tecnologies emergents i en particular de la IA, com ara la proposta europea de regulació de la intel·ligència artificial, les principals decisions –com les que publica el Comitè Europeu de Protecció de Dades-, així com les guies o treballs que confeccionen el Supervisor Europeu de Protecció de Dades o les diferents autoritats de protecció de dades com l’anglesa o la catalana.

Torna a munt
× Tanqueu els crèdits
Autoria i llicència
  • Els continguts d'aquest curs han estat elaborats per Joana Marí, Eulàlia Màrquez i Carles San José.
  • Actualitzacions i revisions a càrrec de Santi Farré, Joana Marí, Jordi Sòria i Xavier Puig.
  • Coordinació tècnica i pedagògica: Servei de Formació per a la Generalitat.

La imatge de portada és de domini públic i s'ha obtingut de la pàgina web needpix.com.

L'Escola d'Administració Pública de Catalunya, amb la voluntat de contribuir a la lliure difusió del coneixement i seguint el que estableix la Recomanació de la Comissió Europea sobre gestió de la propietat intel·lectual, difon aquests materials sota una llicència creative commons by-nc-sa, cosa que n'autoritza l'ús:

  • citant-ne font i autoria;
  • amb finalitats no comercials;
  • per fer-ne obres derivades que compleixin les condicions anteriors i es difonguin amb el mateix tipus de llicència

Llicència de Creative Commons
Aquesta obra està subjecta a una llicència de Reconeixement-NoComercial-CompartirIgual 4.0 Internacional de Creative Commons