3. Ús controlat d'intel·ligències artificials generatives per obtenir i organitzar informació
3.0 Per què parlem d'intel·ligència artificial en un curs sobre cerca avançada d'informació?
El primer motiu és que no podem obviar-ne la presència quan ens disposem a cercar informació a Internet, ho fem com ho fem. Per exemple, si fem una cerca amb Google estem interactuant amb programes que es basen en intel·ligència artificial. La manera com adapten els resultats al nostre context, n'és un exemple. Si busquem una paraula, no ens donarà el mateix resultat si la busquem des d'un ordinador configurat en català a Catalunya que si ho fem en un ordinador configurat en anglès a Nova York. Tampoc si les deu cerques anteriors han estat de productes comercials o si han estat sobre articles acadèmics. Adaptar els resultats a cada cas només es pot fer manejant grans volums de dades mitjançant IA.
Però hi ha un altre motiu i és la irrupció dels xatbots que dialoguen amb models de llenguatge extens entrenats amb intel·ligència artificial, és a dir, productes com ChatGPT, Copilot, Gemini, Perplexity o d'altres. Des de la seva aparició, cercar informació i formatar-la per als nostres usos és cada vegada més comú i ens cal un cert coneixement per poder abordar aquest tipus d'eines de manera fiable.
3.1 Què és la intel·ligència artificial?
La intel·ligència artificial (IA) és un concepte que ha generat innombrables definicions. Podeu llegir, per exemple, la que figura a l'entrada intel·ligència artificial de la Vikipèdia. En realitat, però, és una metàfora que ens permet imaginar una realitat que no existeix exactament en termes físics però que, un cop creada, afecta les nostres vides de manera molt real.
Mirem les parts que la componen: "intel·ligència" i "artificial". El terme "intel·ligència" és una capacitat atribuïda als animals, com la intel·ligència humana, dels dofins, dels pops, de les balenes o dels lloros. L’adjectiu artificial, en canvi, denota allò que no és natural, sinó creat per mitjà d’instruments i tècniques humanes: gespa artificial, respiració artificial o focs artificials. Els focs artificials, per exemple, no tenen res de foc tal com el veiem a la natura; són una reacció química amb finalitats estètiques o lúdiques.
La intel·ligència artificial, de manera semblant, no és un tipus d'intel·ligència tal com l'entenem en els animals, sinó una constel·lació d'eines creades pels humans amb el propòsit de resoldre determinades tasques, que ha acabat rebent aquesta denominació i que al llarg del temps ha designat coses molt diferents. Això sí, la presència intensiva del concepte en la cultura popular i l'imaginari col·lectiu ha convertit aquest concepte en alguna cosa molt important, que fa intriga i fa por i que obre unes expectatives enormes al mateix temps.
Definim habitualment la IA com la capacitat de les màquines per executar tasques que requeririen intel·ligència humana, com aprendre, raonar o planificar. Però aquesta definició, encunyada per primera vegada per John McCarthy el 1956, ens remet a un concepte més imaginari que tecnològic. Els inicis de la IA, com amb el test de Turing ideat el 1950, ja mostraven aquest caràcter: es tractava de provar si una màquina podia enganyar-nos fent-se passar per humana, però, en realitat, ens recordava que les màquines eren una extensió del nostre cos i ment.
Al principi de la investigació en intel·ligència artificial (IA), els científics es van centrar en desenvolupar sistemes que ajudessin a prendre decisions basades en regles predefinides. No obstant això, aquests sistemes eren tediosos de construir, ja que requerien una gran quantitat de treball manual per codificar totes les possibles regles i excepcions, i sovint eren poc flexibles davant situacions no previstes.
A mesura que les tecnologies d'IA van avançar, es va començar a explorar nous enfocaments, com ara l'aprenentatge automàtic (machine learning). D'aquest enfocament van sorgir diverses tècniques, com les xarxes neuronals artificials (Artificial Neural Networks), que permeten als ordinadors aprendre per ells mateixos a partir de grans quantitats de dades d'entrenament prèviament etiquetades. Aquestes xarxes imiten el funcionament del cervell humà i són capaces de reconèixer patrons i fer prediccions basades en la informació que han processat. Calia, però, etiquetar les dades manualment, cosa que suposava una dedicació humana important.
Amb el temps, es va introduir un nou enfocament conegut com a IA generativa, que no requeria dades etiquetades. Això va ser possible gràcies al fet que els sistemes d'IA generativa aprenien per ells mateixos consumint grans quantitats de dades i aprenent les relacions dins aquestes dades, igual que ho fa un animal a la natura. Les xarxes generatives antagòniques van ser la clau d'aquesta capacitat basada en la idea que dues xarxes competissin antagònicament entre elles per millorar la qualitat del contingut generat.
La culminació d'aquest procés ha estat l'aparició dels dels models de llenguatge extensos (LLM), com GPT-3 i altres models similars que permeten la generació autònoma de contingut creatiu i útil en una gran varietat de formats.
Tinguem ben present que quan parlem d'intel·ligència artificial, no ho fem pas d'una “intel·ligència” com la dels humans, sinó una eina poderosa que podem fer servir per facilitar-nos tasques a una velocitat i escala que ens seria impossible d’aconseguir per nosaltres mateixos.
Petita cronologia de la IA
Any | Esdeveniment |
---|---|
1206 | Al-Jazari descriu màquines automàtiques en el seu llibre "El llibre del coneixement dels enginys mecànics ingeniosament mecànics." |
Segle XIII | Ramon Llull desenvolupa la seva "Ars Magna" o "Màquina de Pensar", un sistema lògic per combinar conceptes i buscar coneixement universal. |
1495 | Leonardo da Vinci dissenya un autòmat en forma de cavaller, conegut com "Automa cavaliere", capaç de moure's, seure i moure els braços i el cap. |
1646-1716 | Gottfried Wilhelm Leibniz desenvolupa la idea de la "Characteristica Universalis", un llenguatge lògic per representar tot el coneixement humà. |
1822 | Charles Babbage comença a dissenyar la "Màquina Diferencial", considerada precursora dels ordinadors moderns. |
1950 | Alan Turing proposa el Test de Turing en el seu article "Computing Machinery and Intelligence", establint un criteri per avaluar la intel·ligència de les màquines. |
1956 | La Conferència de Dartmouth marca el naixement de la IA com a camp d'estudi acadèmic. John McCarthy encunya el terme "intel·ligència artificial." |
1966 | Joseph Weizenbaum desenvolupa ELIZA al MIT, un dels primers programes de xat capaç de mantenir converses simples. |
1980 | Apareixen els primers sistemes experts comercials, com XCON de Digital Equipment Corporation, que utilitzen regles de decisió per resoldre problemes específics. |
1997 | Deep Blue d'IBM venç el campió mundial d'escacs Garry Kasparov, marcant una fita en la IA aplicada als jocs. |
2011 | IBM Watson guanya el concurs de televisió Jeopardy!, demostrant avançades capacitats de processament del llenguatge natural. |
2014 | Google DeepMind desenvolupa AlphaGo, que posteriorment vencerà a jugadors professionals de Go, un joc considerat molt més complex que els escacs. |
2018 | Apareixen els primers models transformers influents com BERT de Google i GPT d'OpenAI, revolucionant el processament del llenguatge natural. Això permet millores significatives en tasques com la traducció automàtica, la generació de text i la comprensió del llenguatge natural. |
2019-2020 | Es produeix un increment significatiu en la mida dels models de llenguatge, passant de GPT-2 a GPT-3. Aquesta evolució permet generar text més coherent i contextualitzat, millorant aplicacions com els assistents virtuals i els sistemes de resposta automàtica. |
2021-2022 | Els models arriben a centenars de milers de milions de paràmetres amb projectes com MEGATRON-Turing NLG i BLOOM. Això resulta en una millora substancial en tasques complexes com la generació de codi, l'anàlisi de sentiment i la resposta a preguntes en diversos idiomes. |
2023 | La tendència en models comercials com GPT-4 i Gemini és no publicar el nombre de paràmetres. Es posa èmfasi en l'eficiència amb models més petits però potents com Mistral i Llama. També es diversifiquen els models amb versions multilingües i especialitzades. Aquestes innovacions porten a aplicacions més eficients en dispositius mòbils, millors sistemes de recomanació personalitzada i assistents virtuals més capaços de realitzar tasques específiques en diversos camps com la medicina o el dret. |
Bibliografia de la cronologia:
- Hill, D. R. (1998). Studies in Medieval Islamic Technology: From Philo to al-Jazarī – from Alexandria to Diyār Bakr. Ashgate.
- Bonner, A. (2007). The Art and Logic of Ramon Llull: A User's Guide. Brill.
- Rosheim, M. E. (2006). Leonardo's Lost Robots. Springer.
- Rutherford, D. (1995). Leibniz and the Rational Order of Nature. Cambridge University Press.
- Swade, D. (2001). The Difference Engine: Charles Babbage and the Quest to Build the First Computer. Penguin Books.
- Turing, A. M. (1950). Computing Machinery and Intelligence. Mind, 59(236), 433-460.
- McCarthy, J., et al. (2006). A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955. AI Magazine, 27(4), 12-14.
- Weizenbaum, J. (1966). ELIZA. A Computer Program for the Study of Natural Language Communication Between Man and Machine. Communications of the ACM, 9(1), 36-45.
- Feigenbaum, E. A., McCorduck, P., & Nii, H. P. (1988). The Rise of the Expert Company. Times Books.
- Campbell, M., Hoane Jr, A. J., & Hsu, F. H. (2002). Deep Blue. Artificial Intelligence, 134(1-2), 57-83.
- Ferrucci, D., et al. (2010). Building Watson: An Overview of the DeepQA Project. AI Magazine, 31(3), 59-79.
- Silver, D., et al. (2016). Mastering the Game of Go with Deep Neural Networks and Tree Search. Nature, 529(7587), 484-489.
- Devlin, J., et al. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805.
- Brown, T. B., et al. (2020). Language Models are Few-Shot Learners. arXiv preprint arXiv:2005.14165.
- Fedus, W., Zoph, B., & Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv preprint arXiv:2101.03961.
- OpenAI. (2023). GPT-4 Technical Report. arXiv preprint arXiv:2303.08774
3.2 Tipus d'intel·ligència artificial
Les intel·ligències artificials es poden classificar de moltes maneres, vegeu a continuació les més rellevants.
Una primera classificació es basa en l'abast de l'IA, és a dir, fins on pot arribar la seva capacitat de comprensió i raonament:
Tipus d'IA | Descripció | Exemples Comercials |
---|---|---|
IA Forta (IA General) | Capacitat de comprendre, aprendre i aplicar coneixements similar a un ésser humà. | Teòrica i no ha estat aconseguida. |
IA Feble (IA Específica) | Dissenyada per realitzar tasques específiques amb alta competència. | Assistents virtuals, sistemes de recomanació (Amazon) o els mateixos xatbots comercials (ChatGPT, Copilot, Gemini…) |
Una segona classificació es pot fer segons el grau de supervisió humana que necessiten per aprendre i funcionar correctament. Això ens permet identificar el tipus de dades i el paper humà en el procés:
Tipus d'IA | Descripció | Exemples Comercials |
---|---|---|
IA Supervisada | Utilitza dades etiquetades per entrenar models. Predicció de resultats futurs. | Predicció de vendes a Amazon. |
IA No Supervisada | Treballa amb dades no etiquetades. Busca patrons ocults o estructures en les dades. | Segmentació de clients a Netflix. |
IA Semi-Supervisada | Combina dades etiquetades i no etiquetades. Millora l'aprenentatge del model. | Reconeixement de veu a Google Assistant. |
També és útil classificar les IA segons el tipus de sistema d’aprenentatge que utilitzen, ja sigui basat en regles o amb algoritmes d'aprenentatge automàtic:
Tipus d'IA | Descripció | Exemples Comercials |
---|---|---|
IA Basada en Regles | Utilitza regles predefinides per prendre decisions. | Sistemes de diagnòstic mèdic (CDSS). |
IA Basada en Aprenentatge | Utilitza algoritmes d'aprenentatge automàtic. Adequada per a tasques amb regles complexes. | Tutors virtuals a Coursera o els xatbots comercials (ChatGPT, Copilot, Gemini…) |
Per a nosaltres, una de les classificacions més útils és la que distingeix les IA segons la seva funció principal: si estan dissenyades per detectar patrons o per generar contingut nou. Aquesta distinció ens ajuda a identificar els sistemes segons l’ús més freqüent a les nostres aplicacions:
Tipus d'IA | Descripció | Exemples Comercials |
---|---|---|
IA de Detecció | Se centra en la classificació i identificació de patrons. | Xarxes neuronals convolucionals (CNN), Xerox per a detecció de frau. |
IA Generativa | Se centra en la creació de contingut nou. | Xatbots comercials (ChatGPT, Copilot, Gemini…) |
És justament aquesta darrera categoria la que ens interessa més per fer cerques d'informació que ens resultin útils i donar-hi un format que pugui ser utilitzat en les nostres tasques quotidianes.
3.3 Què són les intel·ligències artificials generatives?
Les intel·ligències artificials generatives són un tipus d'intel·ligència artificial destinada a crear contingut nou, com text, imatges, so o vídeo. A diferència d'altres tipus d'IA, que es limiten a reconèixer senyals i patrons en dades preexistents, les IA generatives utilitzen models d'aprenentatge profund per crear dades que no existien anteriorment. Aquesta capacitat les converteix en eines extremadament valuoses en diversos àmbits creatius i pràctics.
Un exemple destacat és la generació de text, on s’apliquen xarxes neuronals inspirades en el cervell humà i tècniques de processament de llenguatge natural. Els models de llenguatge extens (LLM), basats en aprenentatge profund, es preentrenen amb grans volums de dades per aconseguir resultats coherents i fluids. Un avantatge clau dels LLM és la seva capacitat d’aprenentatge continu: a mesura que interactuen amb els usuaris, poden millorar les seves respostes, com en el cas dels xatbots, que optimitzen les seves interaccions a partir de converses prèvies.
Un exemple destacat de IA generativa és el model GPT (Generative Pre-trained Transformer) desenvolupat per OpenAI. GPT pot generar textos que semblen ser escrits per humans, cosa que el fa útil per a tasques com la redacció automàtica de correus electrònics, la creació de contingut per a blogs, o fins i tot la generació de diàlegs en jocs de vídeo. Aquest tipus de models han estat entrenats amb enormes quantitats de text per aprendre les estructures i patrons del llenguatge natural, cosa que els permet produir respostes coherents i rellevants en funció dels inputs que reben. En aquest moment els principals LLM d'intel·ligències generatives són els següents:
Model | Paràmetres | Desenvolupador | Any | Accés oficial |
---|---|---|---|---|
BERT | 340M | 2018 | http://huggingface.co (diverses versions) | |
GPT | 117M | OpenAI | 2018 | (Arxivat) |
GPT-2 | 1.5B | OpenAI | 2019 | http://huggingface.co/gpt2 |
GPT-3 | 175B | OpenAI | 2020 | http://openai.com/api |
MEGATRON | 530B | NVIDIA | 2021 | http://nvidia.com/megatron |
BLOOM | 176B | HuggingFace/BigScience | 2022 | http://huggingface.co/bigscience/bloom |
Chinchilla | 70B | DeepMind | 2022 | http://deepmind.com |
LaMDA | 137B | 2022 | (Reemplaçat per Gemini) | |
AlexaTM | 20B | Amazon | 2022 | http://amazon.com/alexa |
Alpaca | 7B | Stanford | 2023 | http://huggingface.co |
Dolly | 12B | Databricks | 2023 | http://huggingface.co/databricks/dolly |
Falcon | 40B/180B | TII | 2023 | http://huggingface.co/tiiuae/falcon |
Gemini | No publicat | 2023 | http://gemini.google.com | |
GPT-4 | No publicat | OpenAI | 2023 | http://chat.openai.com, http://copilot.microsoft.com, http://perplexity.ai |
Llama (2) | 7B-70B | Meta | 2023 | http://llama.meta.com |
Mistral | 7B/8x7B | Mistral AI | 2023 | http://mistral.ai |
Salamandra | 2B/7B/40B | BSC-LT | 2023 | http://huggingface.co/BSC-LT/salamandra |
Les IA generatives també s'utilitzen en la creació d'imatges i art digital. Això significa que, amb només proporcionar una descripció detallada, una IA generativa pot crear una imatge completament nova que compleixi amb aquestes especificacions. Aquesta capacitat és útil en àmbits com el disseny gràfic, la publicitat i fins i tot el desenvolupament de videojocs, on es necessiten visuals únics i personalitzats.
Hem donat a Copilot la indicació següent:
dibuixa un empleat públic que s'està formant en cerca avançada i intel·ligència artificial davant d'un ordinador, però està molt cansat i pensa en un paisatge del Pirineu
I hem obtingut aquest dibuix:
Fixem-nos que la IA ha decidit que el paisatge pirinenc es veurà reflectit a la pantalla de l'ordinador, que l'empleat porta bata blanca i, atenció, que ha de portar guants de llana (qui sap si pensant, ja, en l'excursió que vol fer per esbargir-se).
A més de text i imatges, les IA generatives poden produir música i altres tipus de contingut sonor. Per exemple, models com Jukedeck utilitzen xarxes neuronals per compondre música original en diversos estils, la qual cosa és ideal per a la producció de bandes sonores per a vídeos o jocs. Aquesta tecnologia permet a creadors i empreses accedir a música original sense la necessitat de contractar compositors humans, reduint costos i temps de producció.
Les IA generatives suposen un avanç significatiu en la capacitat de les màquines per crear contingut nou i valuós. Són una eina potent per a una àmplia gamma d’aplicacions, des de la redacció de textos fins a la creació d’art i música, permetent a les persones i empreses explorar noves formes de creativitat i eficiència. La seva capacitat per aprendre i millorar contínuament les fa especialment versàtils i prometedores per al futur de la intel·ligència artificial.
Segurament us esteu plantejant fins a quin punt són fiables ara mateix (aquest text data de 2024), les intel·ligències artificials generatives. Per respondre a aquesta pregunta, imagineu-vos un lloro en una gàbia penjada enmig d'un centre comercial. És un lloro amb una gran capacitat retentiva. Per la seva posició al mig del centre comercial és capaç de sentit i retenir totes les converses que hi tenen lloc.
El nostre lloro no s'avorreix gens. En un sol dia sent milers de converses en molts idiomes que mostren transaccions exitoses o fallides entre clients i venedors. També sent converses entre els mateixos clients quan discuteixen a propòsit dels productes que compraran. Sent també les converses entre els venedors sobre el funcionament dels seus negocis o si tenen diferències per qualsevol tema que fa referència als serveis comuns del centre. També les tafaneries i els comentaris informals amb què s'entretenen.
Després d'un any al centre comercial, el lloro ha retingut moltíssima informació, però encara no ha dit res. Un bon dia, però, sent una frase i hi respon. Per exemple, sent una persona que diu "Posi'm una paperina de crispetes". I ell contesta: "Sia servit", posem per cas. Després sent: "Necessito informació sobre les Raspberry Pi" i ell respon: "Raspberry Pi és un ordinador de placa única i de baix cost desenvolupat al Regne Unit per la Fundació Raspberry Pi. Tingui present que no inclou perifèrics, és a dir, teclat o ratolí, ni carcassa. Això sí, li donarà bon servei sobretot per ensenyar informàtica".
No sap ben bé què diu, el lloro; de fet, no sap el que diu, però ho diu i en el context pot ser útil. Ara bé, pot dir veritables disbarats. Per exemple "Posi'm mitja lliura de gerds" i respondre "Li donaré tres plaques sense perifèrics" (ha confós la fruita amb la marca Raspberry). De fet, preval el seu instint de contestar per damunt de qualsevol consideració de significat. Això pot comportar que s'acabi inventant totalment el que diu. Per exemple, que li diguem: "Posi'm una carxofa" i que contesti: "Les carxofes del Prat són les més valorades, però no descarti les carxofes de la dutxa; ara ja n'hi ha que inclouen leds de colors graduats segons la temperatura de l'aigua. A l'hivern la temperatura és freda, però a Caldes de Montbui tenen fonts càlides, descobertes pels extraterrestres segons experts reputats".
És evident que el lloro respon als estímuls, però sempre hi ha un punt que no podrem controlar ni explicar respecte del que es diu. Per tant, allò que n'obtindrem i l'ús que ens farem serà responsabilitat nostra, no pas del lloro. Això sí, la seva capacitat de retenir, combinar de manera creïble els continguts i parlar-ne ens pot ser molt útil si fem les preguntes adequades, és a dir, si li donem les millors indicacions (o prompts).
Hem posat l'exemple del centre comercial, però en el món acadèmic la comparació amb el lloro fa temps que es fa servir quan es tracta d'avaluar les capacitats de les intel·ligències artificials generatives. És cèlebre l'article d'Emily M. Bender i altres autores, "On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜".
Aquestes autores ens recorden que en la ment humana, el llenguatge i les paraules es corresponen amb experiències mentre que per als models de llenguatge són mers elements vectorialitzats. Això pot fer que no distingeixin realitat de ficció i generin errors i al·lucinacions.
Emily M. Bender, et al.
Quan arribeu a aquest punt, pot ser que vulgueu passar a la pràctica o entendre una mica més com funcionen aquests sistemes. Si és així, llegiu aquest apartat:
L'entrenament dels models de llenguatge extens (LLM) implica l'ús de grans quantitats de dades de text mitjançant aprenentatge no supervisat. Aquest procés permet identificar patrons i relacions en el llenguatge, millorant la comprensió del llenguatge natural. Després d'aquesta fase d'entrenament, els models són capaços de generar text de manera autònoma, responent coherentment a les sol·licituds dels usuaris.
Per aconseguir-ho, els LLM utilitzen una arquitectura de transformadors (transformers), una tècnica d'aprenentatge profund molt eficaç en el processament del llenguatge. Els transformadors compten amb múltiples capes d'atenció i autoatenció, que permeten analitzar el text d'entrada en profunditat i generar respostes coherents i rellevants en el context donat. Aquesta innovació ha revolucionat la manera de processar el llenguatge natural i permet que els LLM generin textos de gran qualitat a partir de simples indicacions.
Un altre concepte clau en l'entrenament dels models de llenguatge extens són les inscrustacions de mots (embeddings), que són representacions numèriques de paraules o frases que capturen el seu significat en un espai multidimensional. Aquestes representacions ajuden als models a entendre millor les relacions semàntiques entre les paraules, facilitant la generació de contingut més precís i contextualitzat.
La IA generativa utilitza models d'aprenentatge automàtic profund per produir contingut nou basat en l'entrada de l'usuari, com ara una descripció en llenguatge natural. El contingut que es genera, conegut com a "sintètic", pot incloure textos, imatges, vídeos, àudios, música i codi. Aquesta capacitat d'aprendre i generar contingut de manera autònoma ha obert noves oportunitats en diverses àrees, des de l'educació fins a l'entreteniment i la recerca científica.
Trobareu una bona explicació de tot això en aquest interactiu del Financial Times: https://ig.ft.com/generative-ai/
3.4 Com funcionen els xatbots orientats a intel·ligències artificials generatives?
Els xatbots d'intel·ligència artificial (IA) són aplicacions dissenyades per interactuar amb llenguatge natural (per exemple, la majoria els podem interrogar en català) amb els models de llenguatge extens (LLM) preentrenats i obtenir-ne respostes. Els LLM, com GPT-3 o GPT-4, són models de llenguatge que han estat preentrenats amb enormes quantitats de text per aprendre estructures, patrons i coneixements sobre el món. Quan un xatbot utilitza un LLM, pot proporcionar respostes a una àmplia varietat de preguntes basades en aquest coneixement preentrenat.
No obstant això, en alguns casos, els xatbots poden integrar informació en temps real o informació específica d'un domini, per tant quan interroguem un model amb un xatbot, poden passar tres coses:
1. Que la resposta derivi només de les dades que figuren al LLM i que el sistema ha après durant el preentrenament. Això és útil per a preguntes generals o temes àmpliament coberts en els textos amb què es va entrenar el model. És com funciona en aquest moment (octubre de 2024) ChatGPT. Vegeu les fletxes negres de l'esquema (el cilindre gran representa el LLM).
2. Que es combini informació que figura al LLM amb informació en línia en temps real, cosa que permet obtenir respostes actualitzades que inclouen dades actuals o esdeveniments recents. És com funciona en aquest moment SearchGPT (una variant de ChatGPT) o Perplexity. Vegeu les línies vermelles de l'esquema (el cilindre gran representa el LLM).
3. Que estiguem interrogant un xatbot que interroga un LLM que ha estat objecte d'afinament (fine tuning) en un àmbit de coneixement específic. Això implica entrenar el model amb un corpus de dades concret, la qual cosa li permet ajustar-se millor a les necessitats d'un domini particular. Així, el xatbot pot combinar les respostes generades pel LLM amb informació específica i rellevant d'aquell domini, millorant la seva precisió i utilitat. És el tipus de servei que ens ofereix un xatbot d'una empresa de serveis (companyies d'aigua, llum, etc.). Vegeu les línies verdes de l'esquema (el cilindre gran representa el LLM).
En resum, els xatbots d'IA que utilitzen LLM són instruments versàtils que poden no només proporcionar respostes basades en el coneixement preentrenat, sinó també integrar informació viva i especialitzada, adaptant-se a les necessitats dels usuaris en temps real. Aquesta capacitat els fa molt útils en una àmplia gamma d'aplicacions, des del servei al client fins a l'educació i l'assistència mèdica. Situem-nos davant un xatbot que treballa amb un model preentrenat de llenguatge (un LLM). És el cas dels més populars, com ChatGPT. Per exemple, formulem-li aquesta indicació (en anglès, prompt):
“Explica’m què són els drets digitals dels ciutadans”
El xatbot utilitzarà el LLM per identificar les paraules clau —en aquest cas, “drets digitals” i “ciutadans”— i a partir d’aquí generarà una resposta que descriurà aquest concepte de manera més o menys pertinent. Vegeu l'exemple de resposta a ChatGPT:
El valor afegit dels xatbots radica en el fet que ens permeten interrogar aquests LLM mitjançant prompts o instruccions inicials. Així, una persona sense coneixements tècnics pot formular una pregunta directament i obtenir una resposta complexa.
Posem un altre exemple: imaginem que un empleat públic vol obtenir orientació sobre els passos a seguir per implementar un procés administratiu amb criteris d’inclusivitat digital. Podria escriure la indicació següent:
''Com fer que un procediment administratiu sigui inclusiu?''
El xatbot, gràcies al LLM, detectaria les necessitats implícites d’accessibilitat i diversitat i generaria una resposta suggerint passos, com ara utilitzar un llenguatge clar, adaptar el web per a persones amb discapacitat visual o auditiu, etc.
3.5 Quins són els principals xatbots que hi ha al mercat?
Hi ha molts xatbots en IA que ofereixen fórmules gratuïtes o semigratuïtes d'accés i que treballen amb LLM. En l'edició de 2024 d'aquest curs, ens centrarem sobretot en els quatre següents.
ChatGPT (https://chat.openai.com/) és un servei de xatbot d'intel·ligència artificial generativa orientada a text a partir d'indicacions ("prompts") en llenguatge natural. Desenvolupada per l'empresa OpenAI mitjançant models de llenguatge natural GTP-3 i GTP-4, pot generar tota mena de textos (incloent-hi, doncs, notícies i similars). Es pot interrogar en català, disposa d'interfície en aquesta llengua tant en l'aplicació mòbil com en la versió per a navegador, ofereix resultats plausibles en català, excel·lents pel que fa a reconeixement i síntesi de veu en viu (tant en la versió gratuïta com en la de pagament i tant en navegador com al mòbil). Opera amb el model preentrenat GPT4 i té un tall de consulta, però ofereix la possibilitat de fer consultes creuades amb l'Internet viu mitjançant l'eina SearchGPT (integrada a la interfície per a ordinador); així mateix, genera imatges amb l'eina, també integrada, Dall-E. És el que dona més productivitat a nivell de llenguatge en qualsevol llengua dels quatre que es presenten en aquesta selecció, si més no en l'actualitat. En canvi, té cert risc d'al·lucinacions si relacionem conceptes molt distants, per bé que des que utilitza GPT-4 ha millorat moltíssim. Ha començat a introduir en determinades consultes referències a les fonts d'on obté el resultat.
Copilot (https://copilot.microsoft.com) és un servei d'intel·ligència artificial generativa desenvolupat per Microsoft. Tot i que inicialment es va centrar en l'assistència a la programació (GitHub Copilot), actualment ofereix una gamma més àmplia de serveis integrats als productes de Microsoft, incloent-hi Microsoft 365 Copilot per a aplicacions d'oficina i Windows Copilot per al sistema operatiu. Pot generar i modificar text, codi, imatges i altres continguts. Funciona perfectament en català escrit i disposa d'interfície en català tant en l'aplicació per a mòbil com en la versió per a navegador. Es troba integrat en forma de botó al cercador Bing.
Gemini (https://gemini.google.com) és un servei de xatbot d'intel·ligència artificial generativa orientada a text a partir d'indicacions ("prompts") en llenguatge natural, desenvolupat per Google. Basat en la família de models Gemini (que substitueix els anteriors LaMDA i PaLM), pot generar tota mena de textos i també processar imatges. Es pot interrogar en català i ofereix resultats plausibles en aquesta llengua per escrit, tot i que de vegades salta al castellà. No disposa d'interfície en català ni al navegador ni en l'aplicació mòbil i el sistema de reconeixement i síntesi de veu en viu no reconeix bé el català ni respon en aquesta llengua. Pertany a Google i està integrat al seu cercador i altres serveis.
Perplexity (http://perplexity.ai) és un servei de xatbot d'intel·ligència artificial generativa orientada a text a partir d'indicacions ("prompts") en llenguatge natural. Té un funcionament similar a un cercador i està especialment orientat a documentar-se sobre un tema. El principal avantatge és que amb una nota ens remet a la font de cada afirmació que fa. És doncs el servei més transparent quant a l'origen de la informació, però no està exempt d'introduir al·lucinacions. Es pot interrogar en català i ofereix resultats plausibles en aquesta llengua, encara que alguna vegada salta a l'anglès. El sistema de reconeixement i síntesi de veu en viu no opera bé en català. Té la interfície en anglès tant a la versió per a navegador com a l'aplicació per mòbil.
Claude (https://claude.ai) és un servei de xatbot d'intel·ligència artificial generativa desenvolupat per Anthropic. Utilitza els models de la família Claude (actualment en la versió 3) i destaca per la seva capacitat d'anàlisi, redacció i resolució de tasques complexes. Pot processar i generar text, analitzar dades i codi, i treballar amb diversos formats de documents. Es pot interrogar en català i ofereix respostes ben bones en aquesta llengua tot i que té la interfície en anglès tant en la versió per a navegador com en l'aplicació per a mòbil. Posa èmfasi en l'ús responsable i ètic de la IA. No ofereix sistema de reconeixement i síntesi de veu en viu en cap llengua.
A continuació, facilitem informació d'una llista força fiable, en data d'avui, de xatbots que poden ser-vos útils:
URL | Principals prestacions | LLM/Model | Empreses |
---|---|---|---|
http://chat.openai.com | Conversa general, programació, anàlisi, redacció. Multimodal amb capacitat d'entendre i processar imatges. Inclou Dall-E3 i SearchGPT. | GPT-4 | OpenAI, Microsoft |
https://copilot.microsoft.com | Assistent d'IA integrat a aplicacions Microsoft. Generació de contingut, anàlisi de dades i suport en tasques diàries. | GPT-4 | Microsoft |
http://gemini.google.com | Multimodal amb fort processament d'imatges i dades. Integració amb serveis Google. | Gemini | |
http://perplexity.ai | Cerca i síntesi d'informació en temps real amb citacions. Generació de respostes precises i actualitzades. | GPT-4, Claude | Perplexity AI |
http://claude.ai | Anàlisi detallat, programació avançada, raonament complex. Excel·lent en tasques acadèmiques i tècniques. | Claude 3 | Anthropic, Amazon |
http://chat.mistral.ai | Models de codi obert d'alta qualitat. Versions especialitzades per diferents tasques. Eficient en context multilingüe. | Mixtral, Mistral | Mistral AI |
http://midjourney.com | Generació d'imatges artístiques d'alta qualitat. Especialment fort en estils visuals i art conceptual. | Midjourney | Midjourney |
http://stability.ai | Generació d'imatges amb múltiples models i estils. Codi obert i personalitzable. | Stable Diffusion | Stability AI |
http://suno.ai | Creació de música i cançons completes amb veu, lletra i instrumentació. | AudioCraft | Suno AI |
http://heygen.com | Generació de vídeos amb avatars i veus sintètiques. Doblatge i localització automàtica. | Diversos | HeyGen |
http://runwayml.com | Edició i generació de vídeo, efectes visuals i animació. | Gen-2 | Runway |
http://elevenlabs.io | Síntesi de veu realista en múltiples idiomes i amb control d'emocions. | ElevenLabs | ElevenLabs |
En molts pocs segons, el xatbot RunWayML ha generat aquest vídeo a partir de la imatge de l'empleat públic, amb una indicació ben simple,"Anima aquest personatge".:
3.6 Orientacions pràctiques per a la cerca i obtenció d'informació mitjançant xatbots d'IA
Després de tota aquesta informació que té com a objectiu que entengueu bé el context tecnològic on us moveu, abordarem de manera pràctica com podem utilitzar els xatbots d'intel·ligència artificial generativa en el nostre lloc de treball, només quan sigui oportú de fer-ne ús.
Abans de començar a formular indicacions, recorda sempre l'abast del xatbot. Si només consulta el model de llenguatge extens preentrenat (LLM) en què es basa, les respostes només donaran informació fins a la data en què ha estat tancat. Si vols que consulti Internet en viu, utilitza un xatbot que ho faci o les eines específiques que ho permeten. Per exemple, en l'actualitat (2024), ChatGPT treballa només amb el model preentrenat, llevat que utilitzis el seu recurs SearchGPT. En canvi, Perplexity opera directament combinant informació del model preentrenat LLM i de l'Internet viu.
3.6.1 Comencem. Què són les indicacions o prompts
Els xatbots d'intel·ligència artificial utilitzen llenguatge natural i com que estan entrenats amb models de llenguatge extens, que són sempre multilingües ens entenen bé quan ens hi adrecem en català, sobretot per escrit. En aquest moment, els principals xatbots comercials treballen perfectament en català per escrit i els més importants també quan els interroguem mitjançant la veu.
Quan ens adrecem a un xatbot, li donem indicacions (en anglès, prompts), també denominats peticions. És la nostra manera d'interrogar-los en català (o en qualsevol altra llengua) i de la qualitat de la interrogació combinada amb la qualitat del model i les prestacions mateixes del xatbot en sortirà una resposta més o menys bona.
Hem de saber que a més del que nosaltres posem a la indicació, el sistema hi pot afegir més coses que nosaltres no sabem. Per exemple, si un usuari demana: “Explica’m la normativa de protecció de dades”, el xatbot pot afegir-hi indicacions subjacents que fan que respongui amb una introducció breu, seguit d’unes pautes generals, i acabant amb exemples concrets. Aquest guiatge, que sovint no és visible, ajuda a adaptar la resposta als objectius del xatbot, com ara ser clar, neutral i educatiu.
És el moment de formular la teva primera indicació. Et suggereixo de demanar a qualsevol dels xatbots que t'hem proposat que t'ajudi a trobar una bona recepta de cuina. Prèviament en molts d'ells t'hi hauràs de donar d'alta. Aquí tens alguns suggeriments per començar a escriure aquesta primera indicació.
* Facilita'm una recepta de fricandó * Diga'm com es fa una paella de marisc * Exposa pas per pas una recepta de...
3.6.2 Consells per a indicacions senzilles
Trobaràs milers de manuals per redactar indicacions. Hi ha gent que ha treballat a fons per aconseguir la màxima eficàcia quan s'encara a una intel·ligència artificial i han fet descobriments ben sorprenents. Un bon consell és que la indicació sigui clara, concisa i completa.
Clara
Volem que la indicació sigui clara per evitar ambigüitats. A continuació et presentaré dues indicacions. La primera és clara, la segona no ho és:
Diga'm el nombre d'habitants de Santa Coloma de Gramenet
Vull informació sobre els habitants de Santa Coloma
La primera indicació et facilitarà el nombre d'habitants. La segona segurament es perdrà ja que no sabrà si vols saber com són i no quants són i a més no tindrà clar a quina Santa Coloma fas referència.
Concisa
No cal que saludem el xatbot ni que li facilitem informació innecessària. Cada cadena que enviem (cada token) genera una despesa de processament. Si fem servir versions gratuïtes dels xatbots, fan que el crèdit de què disposem s'acabi de seguida i ens interrompin el servei o ens derivin a LLM més dolents durant hores. A més, com més cadenes circulen amunt i avall, les màquines necessiten més energia i la petja ecològica de la IA augmenta. A més, la informació enviada perquè sí, pot confondre la màquina. Fixa't en aquestes dues indicacions:
Bon dia, com estàs? Et faria res de facilitar-me informació climàtica sobre Reus a la primavera?
Quin temps sol fer a Reus a la primavera?
La primera no és concisa, genera un moviment important de cadenes (tokens) i comporta que la màquina perdi el temps fent-te una resposta de cortesia a més d'introduir conceptes com clima, que comportaran un treball de recerca innecessari.
Completa
Que sigui concisa no vol dir necessàriament que hagi de ser breu i que aquesta brevetat faci que sigui incompleta. Fixa't en aquestes dues indicacions:
Facilita'm una llista de bolets verinosos i comestibles
Facilita'm una llista de bolets especificant en cada cas si són verinosos o comestibles
L'excés de brevetat de la primera indicació ens haurà suposat que la primera llista que ens facilitarà el xatbot no serveixi de res.
Un altre bon consell és utilitzar paraules clau, que aportin molt de significat i facilitin que el xatbot trobi la informació que busques. Recorda que una de les característiques dels models de llenguatge extens (LLM) és que han estat preentrenats per descobrir quines són les paraules que més pesen en un determinat context. Per tant, mira d'usar-hi paraules que realment facin d'ham i arrosseguin el contingut que ens interessa. Fixa't en aquestes indicacions:
- Com s'està construint i què es pot fer a can Gelonet
- Facilita'm informació urbanística sobre la zona de can Gelonet
La segona indicació dona paraules clau per buscar informació en documentació urbanística i no perdre's en altres documents menys rellevants, en concret les paraules "urbanística", "zona" i òbviament "can Gelonet".
A continuació et facilitem una llista de petits consells per a indicacions simples:
- Si necessites un text amb moltes parts, t'anirà bé de trossejar la indicació i fer-ne de parcials.
- Com més específica sigui la indicació, assoliràs més precisió. No obstant això, no descartis un tempteig previ d'abast més ampli per veure com respon.
- No dubtis a demanar el format que més et convingui; per exemple: "
Diga'm 50 noms de plantes verinoses en català. Utilitza aquest esquema per a cadascuna: -Nom de la planta en català: / Nom de la planta en llatí / símptomes que provoca el seu consum / gravetat
". - Busca la màxima precisió en el tipus de resultat que vols; per exemple: "
Explica'm en 3 frases qui era el rector de Vallfogona
" i noExplica'm, resumidament, qui era el rector de Vallfogona
".
- Aporta el context adequat que sigui rellevant per a la pregunta. T’evitarà confusions i ajudarà a millorar la precisió de la resposta.
- No dubtis a ser específic. Dona detalls. Evita que la resposta es perdi en generalitzacions.
- Especifica la tonalitat o l'estil de resposta desitjats; per exemple: "
respon amb un to hostil
" o "fes-ho de manera seriosa
" o "fes-ho amb un to amigable
". - Demana exemples concrets; per exemple: "
Vull el nom de 50 obres d'art contemporani exposades en museus de Barcelona
". - Limita l'extensió i determina la forma; per exemple: "
respon en un màxim de 200 paraules
", "respon en 300 frases successives
", etc. - No tinguis por de revisar i ajustar el teu indicador si no obtens la resposta desitjada. Experimenta fins a obtenir els resultats que necessites.
- Utilitza el xatbot de manera ètica i evita formular preguntes que puguin promoure contingut ofensiu o inapropiat.
- No l'utilitzis en un entorn professional si no saps quin és el posicionament de la teva organització respecte d'aquesta eina.
Tingues sempre al cap que el nucli de la indicació pot ser, si vols, un comandament imperatiu. Aprèn a jugar amb un repertori d'instruccions del tipus "escriu, classifica, ordena, tradueix, resumeix, programa…
", però, sobretot, no posis límits a la curiositat. A continuació t'oferim alguns exemples d'indicacions que et poden ajudar a veure les possibilitats de l'eina:
- "
Resumeix en una frase l'aportació del rector de Vallfogona al barroc català
." - "
Extreu tots els topònims que surten a l'obra de Cervantes.
" - "
Classifica les comarques catalanes per prosperitat econòmica i justifica en cada cas la classificació.
" - "
Contesta aquesta pregunta d'acord amb el to amb què la formulo: Ei, col·lega, què m'expliques de Nietzsche i el cavall?
" - "
Programa el codi Javascript necessari perquè un web et pregunti la data de naixement i respongui el signe del zodíac corresponent.
" - "
Busca la relació entre la seqüència de Fibonacci i els balanços econòmics del sector urbanístic entre 1990 i 2007
"
I recorda, sempre, les preguntes clàssiques, com aquesta:
- "
On, quan, com i per què va morir Juli Cèsar?
"
I ja per acabar aquest apartat, aquí tens una bateria d'indicacions senzilles que et faran descobrir les potencialitats dels xatbots i alhora t'orientaran sobre com és més adequat formular-les. S'acompanyen totes d'un consell previ:
Característiques que ha de tenir la indicació | Exemple o Contraexemple |
---|---|
Claredat i concisió | Què és la intel·ligència artificial? |
Evitar ambigüitats en les preguntes | *Què pots fer per a mi?* |
Utilitzar terminologia precisa | Explica la diferència entre 'machine learning' i 'deep learning. ' |
Estructurar les preguntes clarament | Quins són els beneficis de l'energia solar per a ús domèstic? |
Focalitzar-se en un sol tema per pregunta | Com funciona un cotxe elèctric? |
Evitar informació redundant | *Quins són els beneficis de l'energia solar? És eficient l'energia solar?* |
Utilitzar preguntes tancades per obtenir respostes concretes | És l'aigua un líquid a temperatura ambient? |
Fer servir exemples per aclarir conceptes | Explica què és un algoritme, per exemple, l'algoritme de cerca binària. |
Plantejar preguntes concretes | Quines són les aplicacions principals de la robòtica mèdica? |
Reformular preguntes si no s'entenen | *Per què el món és així?* |
No sobrecarregar les preguntes amb massa informació | *Com funciona el motor de combustió interna, el cotxe elèctric i la fotovoltaica alhora?* |
Preguntar sobre fonts si es volen detalls més profunds | Quines són les teves fonts sobre aquest tema? |
Dividir preguntes complexes en parts més petites | Com funciona un cotxe elèctric? seguida de Com es compara amb un cotxe de gasolina? |
Aclarir les suposicions inicials abans de preguntar | Com s'utilitzen els ordinadors en la ciència, assumint que els ordinadors són essencials per a la simulació? |
Evitar jocs de paraules per assegurar la comprensió | *Pots comptar amb mi per comptar números?* |
Assegurar-se que la codificació del missatge sigui clara i comprensible | Què és un algoritme? (definició senzilla) |
Adaptar el llenguatge utilitzat a les capacitats del receptor | Pots explicar-ho d'una manera més senzilla per a un principiant? |
Utilitzar vocabulari conegut pel model si és possible | Què és l'aprenentatge supervisat en IA? |
Preguntar per definicions de termes si són desconeguts | Què vol dir 'entropia' en termes d'informació? |
Consultar els significats de paraules o termes per obtenir precisió | Quin és el significat de 'heurístic'? |
Tenir en compte el context del que s'ha parlat anteriorment | Com això es relaciona amb el que em vas dir abans sobre la intel·ligència artificial? |
Preguntar tenint en compte el públic destinatari | Què és el canvi climàtic? per a estudiants de primària |
Aclarir si el tema tracta aspectes tècnics o generals | Em pots donar una explicació tècnica de la criptografia? |
Preguntar sobre el rerefons d'una informació abans d'aprofundir | Quins són els antecedents d'aquest conflicte? |
Considerar la cultura i la història en les preguntes | Com ha influït la Revolució Industrial en el desenvolupament de la societat moderna? |
Conèixer els límits del model en respostes de fets actualitzats | Quines són les notícies més recents sobre la crisi climàtica? |
Preguntar pel marc temporal o referència històrica d'un tema | Com va canviar la tecnologia durant la dècada dels 90? |
Preguntar d'acord amb el registre lingüístic adequat | Podries explicar-me això com si ho estiguessis explicant a un amic? |
Considerar la capacitat del model per entendre contextos socials | Com afecten les xarxes socials les dinàmiques entre generacions? |
Utilitzar un llenguatge adequat al context | Quins són els factors econòmics de la globalització? en un entorn acadèmic |
Proporcionar un mínim context si les respostes són ambigües | Pel que fa a l'article anterior sobre IA, pots aprofundir en les tècniques que s'utilitzen? |
Demanar la translació entre llenguatges si cal | Pots traduir aquest terme tècnic al llenguatge quotidià? |
Evitar termes massa tècnics sense definir-los abans | *Què és la q-bit entanglement?* |
Utilitzar un registre apropiat al tema tractat | Podries explicar l'impacte de la nanotecnologia en la medicina moderna? |
Explorar els referents culturals del codi de la conversa | Com ha influït la cultura japonesa en la robòtica? |
Provar noves formes de codificar conceptes si les anteriors no funcionen | Pots explicar-me això d'una manera diferent, potser amb una metàfora? |
3.6.3 Un mètode per a indicacions complexes
En el teu ús professional necessitaràs donar indicacions complexes als xatbots si vols que realment t'ajudin. Aqueses indicacions complexes no són incompatibles amb els principis de claredat i concisió. Evidentment no t'has d'enrotllar per enrotllar, però a mesura que practiquis amb aquestes eines t'adonaràs que són un assistent que necessita una informació completa si el resultat que volem ha de ser, també, complet.
Ara bé, si volem que el xatbot ens faci, per exemple, l'esquema per a un informe sobre una determinada temàtica, li haurem de donar una informació prou completa perquè allò que ens respongui no sigui faramalla inútil que ens faci perdre temps. Ens caldrà un mètode per aconseguir indicacions completes. És el que trobaràs a continuació.
3.6.3.1 Parts d'una indicació complexa
Utilitzem els sistemes generatius per millorar els nostres missatges, la nostra comunicació. Són uns assistents que ens ajuden a preparar un contingut per a un tercer. Per tant, per pensar quines peces podem incloure en les nostres indicacions, hem de pensar en quina part del procés de comunicació humana volem incidir. Per exemple, si volem que el missatge tingui un to propi d'un president, estarem pensant en l'emissor; si, en canvi, volem que sigui comprensible per a un alumne d'ESO, estarem pensant en el receptor; si volem que ens ho presentin en forma de taula o en anglès o en xinès, estarem pensant en el codi, etc. Per això, ens pot ser molt útil l'esquema de la comunicació humana:
Fixem-nos la indicació complexa següent:
Ets un tècnic de l'administració que et caracteritzes per un gran coneixement de la jurisprudència urbanística. Has de redactar un informe sobre uns terrenys propers a Can Gelonet. Ha de ser un informe en termes molt racionals, que no inclogui cap emoció. S'hi ha de reflectir tant la situació jurídica i urbanística com també els posicionaments polítics i mediàtics que han aparegut a la premsa sobre el tema. Per exemple, cal que diguis coses com ara: els partits X, Y i Z s'han posicionat a favor amb els arguments X, Y, Z. El resultat s'ha de poder enganxar en un document word que es convertirà en un PDF. Ha d'estar escrit en català planer. L'informe l'ha de poder entendre l'alcalde, que és llicenciat en Història de l'Art.
Anem a veure com aportem elements de cada pas del procés comunicatiu:
- Emissor:
Ets un tècnic de l'administració que et caracteritzes per un gran coneixement de la jurisprudència urbanística
- Missatge:
Ha de ser un informe en termes molt racionals, que no inclogui cap emoció.
- Context:
S'hi ha de reflectir tant la situació jurídica i urbanística com també els posicionaments polítics i mediàtics que han aparegut a la premsa sobre el tema. Per exemple, cal que diguis coses com ara: els partits X, Y i Z s'han posicionat a favor amb els arguments X, Y, Z.
- Canal:
El resultat s'ha de poder enganxar en un document Word que es convertirà en un PDF
- Codi:
Ha d'estar escrit en català planer.
- Receptor:
L'informe l'ha de poder entendre l'alcalde, que és llicenciat en Història de l'Art.
Com pots veure, hem aportat una informació molt completa que guiarà sensiblement el resultat que obtindrem. Això ho hem aconseguit guiant-nos amb l'esquema de la comunicació. Si ens guiem per aquest patró, fem tot de reflexions que ens poden ser útils. A continuació, veurem com podem incidir en cadascun dels apartats:
ELEMENT | INCIDÈNCIA |
---|---|
Emissor | És on marques com s'ha de notar qui escriu el document, si hi ha d'haver alguna emoció que prevalgui o ha de ser neutre, si ha de connotar algun tipus de personalitat, etc. |
Missatge | És la clau del contingut, on cal precisar al màxim el resultat que es vol obtenir, per exemple si ha de ser un informe, un missatge o una llista i quin és el nucli semàntic del contingut, ha de quedar clar què volem. Podem incloure exemples, que sempre són pràctics. |
Context | Hem d'aportar la informació complementària sense la qual el resultat seria incomplet o operdria subtilitat, per exemple si cal consultar algun tipus de documentació acadèmica, científica, jurídica, literària, etc. |
Canal | Hem de pensar com volem que ens arribi el resultat per poder-lo aprofitar bé de manera material, és a dir, si volem un text per un document Word, per carregar en un full de càlcul, etc. |
Codi | Podem incloure precisions sobre la llengua, el tipus de llenguatge, el to, etc. |
Receptor | Va molt bé per modular el contingut i que sigui entenedor o agradable; hem de tenir al cap, sempre el lector real. |
I a continuació, alguns exemples:
ELEMENT | EXEMPLE |
---|---|
Emissor | Ets un regidor que ha de fer un discurs / Ets un tècnic de l'administració / Ets un professor que s'adreça a l'alumnat |
Missatge | Crea un informe sobre el tema X / Escriu un correu electrònic sobre el tema X / Fes un programa que bellugui una pilota per la pantalla / Resumeix el text que et facilito a continuació |
Context | La resposta ha de ser compatible amb la jurisprudència / La resposta ha d'incloure la visió dels sectors implicats / Cal tenir presents els darrers esdeveniments sobre el tema / Cal tenir en compte tal factor secundari |
Canal | Presenta el resultat en una taula / presenta el resultat en una finestra de codi / El resultat ha de ser un CSV que es pugui importar des d'Excel / El resultat s'ha de presentar en XML |
Codi | La resposta ha de ser en llenguatge planer / La resposta ha de ser en català / La resposta ha d'incloure transcripció fonètica / ha de ser un programa en javascript |
Receptor | Ho ha de poder entendre un estudiant d'ESO / El lector és un químic prestigiós / És un lector a qui agraden les cites literàries |
3.6.3.2 Exemples d'indicació complexa
A continuació et facilitem algunes indicacions completes ubicades en diversos àmbits de l'administració on es veu com pots modular cadascun dels elements:
1. Àmbit de Salut Pública
[EMISSOR] Ets un tècnic de l’administració especialitzat en legislació sanitària i epidemiologia.
[MISSATGE] Has de redactar un informe sobre l'impacte sanitari potencial de l’ampliació d’un centre hospitalari al barri del Raval. Ha de ser un informe basat en dades objectives i científiques, sense cap mena de valoració subjectiva.
[CONTEXT] L’informe ha d’incloure tant la normativa sanitària aplicable com els punts de vista expressats per diferents col·lectius de pacients i grups d’interès en mitjans de comunicació. Per exemple, descriu com associacions A, B i C han expressat opinions a favor o en contra, amb arguments tècnics concrets.
[CANAL] El document ha de ser compatible amb un editor de text per crear un PDF final.
[CODI] L'informe ha d'estar escrit en català senzill, evitant terminologia excessivament tècnica.
[RECEPTOR] L'informe ha de ser comprensible per la regidora de Salut, que té formació en Dret.
2. Àmbit d’Educació
[EMISSOR] Ets un tècnic en educació amb àmplia experiència en normativa educativa i gestió de projectes escolars.
[MISSATGE] Has de redactar un informe sobre la viabilitat d’un projecte d'innovació pedagògica a les escoles de primària d’una determinada zona. L’informe ha d’estar fonamentat en dades educatives i sense incloure opinions personals.
[CONTEXT] Cal presentar tant el marc normatiu com les opinions de les associacions de pares i mares, els sindicats de professors i altres col·lectius educatius, tal com han aparegut als mitjans. Per exemple, detalla els arguments de suport o oposició dels sindicats X, Y i Z.
[CANAL] El document ha de poder ser editat en un processador de text per generar un PDF final.
[CODI] L’informe ha d’estar escrit en un català accessible i comprensible.
[RECEPTOR] Ha de ser comprensible per la directora de l’àrea d’Educació, que té formació en Psicologia.
3. Àmbit de Medi Ambient
[EMISSOR] Ets un tècnic en medi ambient amb un profund coneixement de la legislació ambiental i en anàlisi d’impactes ecològics.
[MISSATGE] Has de redactar un informe sobre l’impacte ambiental de la construcció d’un nou parc eòlic al litoral. El document ha d’estar basat en dades científiques sense expressar opinions personals.
[CONTEXT] L’informe ha de reflectir tant la normativa ambiental aplicable com els posicionaments de diverses ONG, entitats ecologistes i mitjans de comunicació, per exemple, detallant els arguments de suport o rebuig per part dels grups X, Y i Z.
[CANAL] El text ha de ser apte per enganxar-lo en un editor de text que generi un PDF.
[CODI] Ha d’estar escrit en català senzill, evitant terminologia ambiental complexa.
[RECEPTOR] L’informe ha de ser fàcilment comprensible per la consellera de Medi Ambient, que té formació en Arquitectura.
4. Àmbit de Seguretat Ciutadana
[EMISSOR] Ets un tècnic en seguretat ciutadana amb una sòlida formació en legislació de seguretat i protocols d'emergències.
[MISSATGE] Has de redactar un informe sobre la idoneïtat de crear una nova comissaria en un barri amb altes taxes de delinqüència. El document ha de ser objectiu i basat en dades estadístiques, evitant qualsevol valoració personal.
[CONTEXT] L’informe ha de recollir tant els aspectes legals com les opinions expressades en mitjans per part d’associacions de veïns, partits polítics i altres actors socials, incloent-hi arguments a favor o en contra per part de diferents entitats.
[CANAL] L’informe s’ha de poder enganxar en un document Word per crear-ne un PDF final.
[CODI] L’informe ha d’estar redactat en català clar i directe.
[RECEPTOR] Ha de ser comprensible per al cap de la policia local, amb formació en Dret Penal.
5. Àmbit d’Empresa i Innovació
[EMISSOR] Ets un tècnic de promoció econòmica especialitzat en legislació empresarial i innovació.
[MISSATGE] Has de redactar un informe sobre la viabilitat de crear un parc tecnològic en una àrea industrial concreta. L’informe ha d’estar fonamentat en dades econòmiques i sense incloure cap opinió personal.
[CONTEXT] L’informe ha de cobrir tant el marc jurídic i econòmic com les opinions expressades pels diferents grups empresarials i cambres de comerç que s’han posicionat en mitjans de comunicació. Es poden citar arguments d’associacions empresarials X, Y i Z.
[CANAL] El text ha de ser compatible amb un editor de text per generar un PDF final.
[CODI] L’informe ha d’estar escrit en català planer, amb un llenguatge clar i precís.
[RECEPTOR] Ha de ser comprensible per al director general d'Empresa i Innovació, amb formació en Economia.
3.6.3.3 Concepte d'iteració
Si t'has fixat bé en l'esquema de la comunicació humana que figurava al darrer apartat, te'n deus haver adonat que hi ha una fletxa que torna al començament i que està etiquetada com a retroalimentació (també es coneix pel terme anglès feedback). Quan ens relacionem amb un xatbot d'intel·ligència artificial, no tenim cap compromís de fer un retorn dient si ens ha agradat o no, però és aconsellable de fer-ho utilitzant els mateixos sistemes que el xatbot ens ofereix (per exemple, icones del tipus 👍👎 o similars o bé interaccions via formulari). Això permet millorar el coneixement i les respostes del sistema.
Ara bé, hi ha un altre tipus de retroalimentació a la qual recorreràs amb tota seguretat. És la reformulació de la indicació que faràs un cop hagis tingut la resposta. D'aquí que, habitualment, es parli de pregunta inicial i d'iteracions. La pregunta inicial ens dona una orientació molt bona del que podem obtenir i ens permet millorar-ho. Ara bé, a partir de la segona pregunta (o iteració) el resultat que obtindrem podrà millorar moltíssim ja que en cada resposta descobrirem matisos i possibilitats.
Si la primera pregunta ha estat completa i sistemàtica (a més de clara i concisa), existeix la possibilitat que donem la resposta per bona, però el més probable és que iniciem un procés d'iteració per millorar el resultat i descobrir-ne noves potencialitats. Si utilitzem eines gratuïtes amb tandes de cadenes (tokens) limitades, haurem de ser acurats, però en qualsevol cas, iterar és la clau per obtenir bons resultats i bons informes que responguin a les demandes d'informació que ens han encarregat.
3.6.3.4 Enriquiment de les indicacions amb marcatge lleuger
Ja hem vist que podem obtenir resultats en codificacions molt diverses, però nosaltres també podem construir les indicacions amb un llenguatge de marcatge que ens pot ajudar molt perquè el xatbot ens entengui bé. És el llenguatge markdown (marcatge suau). Pots consultar la: Guia oficial Markdown.
Mitjançant markdown podríem generar indicacions com les següents, que faran que el resultat de la nostra petició sigui molt útil i adequat al que necessitem:
Genera un informe de 3000 caràcters, consultant internet, que respongui a l'esquema següent: # Informe sobre Incendis Forestals ## Context - **Emissor**: Departament de Protecció Civil - **Receptor**: Administració Local - **Objectiu**: Redactar un informe detallat sobre l'estat actual dels incendis forestals, incloent-hi mesures preventives i de resposta. ## Contingut de l'informe 1. **Introducció** - Breu descripció de la situació actual dels incendis forestals en la regió. - Importància de l'informe per a la presa de decisions. 2. **Situació Jurídica** - **Lleis vigents**: Descripció de les lleis i regulacions actuals relacionades amb els incendis forestals. - **Compliment**: Estat del compliment de les normatives per part de les autoritats locals i la població. 3. **Mesures Preventives** - Descripció de les mesures preventives implementades per evitar incendis forestals. - Anàlisi de l'efectivitat d'aquestes mesures. 4. **Resposta als Incendis** - **Equipaments**: Estat dels equipaments i recursos disponibles per combatre els incendis. - **Protocols**: Descripció dels protocols d'actuació en cas d'incendi. - **Resultats Recents**: Anàlisi de l'efectivitat de les respostes recents als incendis forestals. 5. **Posicionaments Polítics i Mediàtics** - **Partit A**: Argumentació i posicionament en relació amb les mesures preventives i de resposta. - **Partit B**: Argumentació i posicionament en relació amb les mesures preventives i de resposta. - **Partit C**: Argumentació i posicionament en relació amb les mesures preventives i de resposta. - **Cobertura Mediàtica**: Resum dels articles i reportatges publicats sobre el tema. ## Conclusió - Resum dels punts clau de l'informe. - Recomanacions per a la millora de les mesures preventives i de resposta.
#Emissor Ets un tècnic de l'administració especialista en polítiques socials #Missatge Escriu un informe de 3.000 paraules sobre l'impacte de les condicions meteorològiques extremes en la gent que viu al carrer ##Dedica un apartat a l'estiu ##Dedica un apartat a l'hivern ##Dedica un apartat a mesures #Context ##Tingues en compte el canvi climàtic ##Tingues en compte el marc legal ##Tingues en compte les dareres notícies sortides a la premsa #Codi El text ha de ser redactat en català i formatat en markdown #Canal El text s'ha de poder incrustar en un Word i generar un PDF #Soroll Evita incloure informació amb biaixos racistes
3.7 Febleses, riscos i reptes de la IA generativa
Qualsevol ús de la intel·ligència artificial i dels xatbots que hi donen accés s'ha de regir pels criteris propis del lloc on treballeu. Tingueu present així mateix, aquestes dues disposicions, una d'orientativa i una altra de normativa:
L’arribada de les intel·ligències artificials generatives, obre diversos fronts de reflexió dels quals no en podem quedar al marge si en fem ús. Cal tenir present que en els LLM han demostrat que acaben servint per moltes més coses d’aquelles per a les quals havien estat dissenyats, de manera sorprenent i inesperada. Els xatbots i els models sobre els quals treballen, presenten nombrosos reptes tant pel que fa a la qualitat del nostre treball com a les implicacions ètiques:
* No sempre segueixen exactament les indicacions; en aquest sentit no són fiables en un 100 % per més que siguem acurats en redactar-les.
- De vegades generen al·lucinacions. Com un lloro, el seu instint és respondre per davant de qualsevol altra consideració. D’aquí que siguin capaces fins i tot d’inventar totalment el contingut.
- No són prou explicables: sovint és difícil per als humans arribar a entendre com han resolt una determinada qüestió; fins i tot si ho han fet bé.
Schönberger i Cukier. Big data. La revolución de los datos masivos
- Poden generar resultats esbiaixats o tòxics. Si tenim en compte que han estat entrenats amb continguts en xarxa (incloent-hi fòrums de debat, on de vegades es fan afirmacions ben tòxiques o esbiaixades), és lògic que, per més que es vigilin, introdueixin aquests biaixos. Això pot arribar a generar malestar social o fins i tot violència gratuïta.
- Tenen un impacte econòmic evident: segurament hi haurà canvis molt ràpids al món del treball, que s’hi haurà d’adaptar, però qualsevol canvi ràpid sol ser traumàtic i fins que hi hagi un reciclatge professional general, pot afavorir desigualtats i injustícies.
- El seu mateix ús en gestió de personal (a l’hora de classificar per exemple currículums o valorar productivitats) pot impactar directament en els treballadors de maneres sovint poc transparents.
- Tenen impacte en la privacitat: la ingesta de grans quantitats de dades en aquests sistemes fa que qualsevol accés a dades personals pugui ser explotat de maneres encara no concebudes. Cal ser extremament acurats si facilitem algun tipus de dada personal a aquests sistemes.
- La ingesta massiva de dades a Internet fa que no sigui clar l’ús que es fa d’aquelles creacions subjectes a propietat intel·lectual. És obvi que la capacitat de generar vídeo o imatges s’alimenta de la creació de moltes persones.
- El consum energètic dels sistemes no és menyspreable i tampoc l'impacte en el medi ambient. Estalviar tokens (per exemple, mirant de no introduir informació innecessària a les indicacions) pot arribar a ser significatiu, tot i que en aquest cas la responsabilitat principal és òbviament de les empreses.
- Tenen clares implicacions lingüístiques i culturals. Si bé a priori han suposat un revulsiu per la manera com reben indicacions i interactuen correctament amb un gran nombre de llengües, la falta d'explicabilitat fa que no sempre les respostes es basin en el bagatge cultural d'aquestes llengües i es poden generar miratges i artefactes irreals. D'altra banda, hi ha llengües petites amb poc contingut a les xarxes que hi estan clarament infrarepresentades.
Tot plegat fa necessari una regulació i la UE s’hi ha posat de ple, amb la paradoxa que moltes de les empreses rebutgen frontalment aquesta actitud i es pot donar la circumstància que països com la Xina superin totalment Europa en poc temps a causa de les restriccions que Europa mateix s’imposa. En aquest sentit, per mantenir l’equilibri entre competitivitat i regulació garantista, han sortit iniciatives com el denominat Pla Draghi que proposa inversions immenses en aquest camp. Quan usem aquestes eines hem de ser absolutament respectuosos amb les instruccions i regulacions de la institució on treballem, però també hem de mirar d’actuar amb responsabilitat personal i salvaguardar-nos a nosaltres mateixos i la nostra organització de riscos evidents.
Es poden fer abordatges optimistes o pessimistes de la IA. Un dels més pessimistes sol anar associat al concepte de singularitat tecnològica.
L'existència d'una intel·ligència artificial general o "forta" (vegeu la classificació que hem presentat més amunt) pot comportar l'arribada d'una "singularitat tecnològica", és a dir, l'adveniment d'una intel·ligència artificial capaç de superar l'intel·lecte humà i millorar-se autònomament ella mateixa, generant unes capacitats que podrien ser realment perilloses. El terme, procedent del matemàtic Von Neumann, va ser teoritzat i actualitzat pel matemàtic i inventor Raymond Kurzweil, però el va popularitzar sobretot el divulgador Vernor Vinge, que en un article d'opinió als anys 80 del segle XX, afirmava:
"L'acceleració del progrés tecnològic ha estat la característica principal d'aquest segle. Estem a les portes d'un canvi comparable a l'origen de la vida humana a la terra. La causa és la imminent creació per part de les tecnologies d'un ens amb una intel·ligència superior a la humana (…) Aquest canvi, que trencarà les regles humanes en un tres i no res, en una fuga exponencial més enllà de qualsevol control (…), l'hem d'anomenar singularitat".
Si bé és cert que el moment que viu actualment la intel·ligència artificial fa pensar en aquesta possibilitat (en parlen autors ben prestigiosos com Bostrom o Mitchell, que trobareu a la bibliografia), també és cert que el concepte va sorgir als anys 80, en què la humanitat estava fascinada per senyals apocalíptics com els avistaments d'ovnis i un ric imaginari irracional.