Latent Talent / Latent space de Mario Klingemann

Magazine

13 març 2023
Tema del Mes: Latent space & AI artEditor/a Resident: Pau Waelder

La creixent popularitat de la intel·ligència artificial està introduint al nostre vocabulari quotidià un terme que, com el mateix terme “IA (intel·ligència artificial)”, sembla tenir diferents significats per a diferents persones: és el terme “espai latent”. Com a artista que ha incorporat la IA a la seva pràctica artística, sento un profund afecte per aquest terme que, almenys al meu entendre, està al nucli dels processos que habitualment anomenem “IA.” La interpretació que en faig m’aporta la convicció suficient per concebre la intel·ligència artificial com un nou mitjà, i no només com una eina tecnològica d’última generació. En aquest article, miraré d’esbossar algunes idees sobre el que l’“espai latent” significa per a mi, com ho percebo, ho faig servir, i em moc per ell.

Seria més correcte parlar d’espais latents en plural —el singular pot donar lloc a equivocacions, ja que suggeriria unicitat, és a dir un espai comú compartit per totes les intel·ligències artificials que existeixen, com l’univers o el ciberespai—. En realitat, hi ha tants espais latents com a models i arquitectures neuronals. Amb tot, aquests diferents espais latents comparteixen propietats, comportaments i regles que ens permeten emprar el coneixement i les tècniques que ja hem après en un espai determinat per aplicar-lo a qualsevol que trobem més endavant. Seria semblant a quan aprenguem a anar amb bicicleta o tocar el piano, després de dominar aquestes activitats, arriba un moment en què ja no importa la marca de la bicicleta o de l’instrument. Per tant, em prendré la llibertat de parlar sobre l’espai latent en singular.

La dificultat d’explicar l’espai latent és que, com passa amb un forat negre, no es pot observar directament. Només podem fer-nos una idea de la forma i les lleis naturals observant com interactua amb el seu entorn. Per això, he de recórrer a metàfores i comparacions per descriure els fenòmens que trobo, i és que encara no hem desenvolupat un vocabulari comú, ni una taxonomia, per parlar-ne.

Pero, què és l’espai? Fa poc vaig descobrir el text The New Vision (1928) de Lázló Moholy-Nagy. Aquest text fonamental és un manifest sobre la relació entre l’artista i l’espai. La seva definició de l’espai, derivada de la definició física, és: “l’espai és la relació de posició dels cossos”. Aquesta definició capta exactament com percebo l’espai latent. La única diferència és que, en lloc de cossos físics, l’espai latent és la relació de posició de la informació. Aquesta informació pot adoptar formes molt diferents segons el model i les dades amb els quals s’hagi entrenat: per example, pot ser el significat de les paraules, les estructures micro i macro de les dades visuals, la codificació dels sons, les configuracions de les postures humanes… literalment, qualsevol cosa que pugui ser traduïda a un format digital per a ser posteriorment comprimida i transformada en un vector multidimensional. Aquests vectors de característiques o incrustacions es converteixen en els “cossos” que creen l’espai latent i les seves relacions són les distàncies matemàtiques que hi ha entre ells.

Cada cop que es disposa de més d’un cos en un espai, s’està creant un ordre. La qüestió de si algunes d’aquestes configuracions són superiors a d’altres és al centre de discursos filosòfics i estètics, però en trobem un criteri per determinar la qualitat d’un ordre en la seva improbabilitat. Reconeixem instintivament les disposicions estètiques pel fet que no ens semblen aleatòries o “normals”: un “bon” ordre sol ser estrany i, segons la nostra experiència, no es forma per accident, sinó com a resultat d’un esforç intencionat o d’una selecció precisa. Però, com podem determinar com és d’improbable un ordre proposat, en comparació amb totes les altres configuracions possibles dels mateixos cossos? Per això cal mesurar i sumar totes les similituds de cada cos amb tots els seus veïns en un espai. Fent-ho per a molts ordenaments diferents, podem observar que les sumes que obtenim sempre seguiran una distribució gaussiana: hi haurà un gran cos central de sumes «mitges» on hi ha la majoria dels ordenaments que ens semblen aleatoris o esperats. Al mateix temps, als extrems exteriors d’aquest revolt hi haurà molt poques disposicions inusuals, ja que les sumes són, o bé molt grans —cosa que en mesura de similitud significa que els cossos similars s’han col·locat el més lluny possible els uns dels altres— o bé molt petites. Aquesta última és la que solem percebre com la disposició més significativa, ja que els cossos similars s’han col·locat tan a prop els uns dels altres, com ho permeten les dimensions de l’espai que formen.

Permet-me il·lustrar-ho amb un exemple molt senzill: pren els números de l’1 al 6, com els trobes en un dau. Hi ha 720 formes diferents d’ordenar aquests números en una línia, per exemple 4-2-5-6-1-3, 6-1-2-3-5-4, 1-2-3-4-5-6 o 3-6-5-1-4-2. Ara bé, per què és que 1-2-3-4-5-6 es destaca dels altres ordres? A part del fet que hem après a l’escola que aquest és l’ordre natural dels números, també es pot demostrar matemàticament que aquest ordre és diferent de la resta: si et fixes en les diferències de cada número amb els seus veïns de l’esquerra i la dreta, la suma de 425613 és 13, la de 612354 és 10, 365142 també és 13, però per a 123456 és tan sols 5. Només hi ha una altra disposició entre les 720 que és igual de estranya, i és la 6-5-4-3-2-1. Amb tot, pot semblar molt ingenu afirmar que aquestes lleis derivades d’algun exemple matemàtic simplificat es generalitzen a “… i així és com s’organitza el món”, no obstant, això és exactament el que fem. La diferència entre 123456 i la capacitat de distingir un gat d’un gos o escriure un poema és en la seva majoria una qüestió de dimensionalitat.

Els models creen un espai latent intentant organitzar tot el que aprenen en una configuració que sigui la més probable i eficient. Així, quan se’ls consulti més endavant, donaran una resposta probablement correcta. I la disposició més eficient per tornar a trobar alguna cosa, és col·locar aquesta cosa juntament amb aquells altres elements amb què comparteix característiques, com en una biblioteca, on no es col·loca un llibre de poesia a la prestatgeria d’història natural. Un dels avantatges de les xarxes neuronals pel que fa a les biblioteques, és que disposen de moltes més dimensions. En una biblioteca física, l’espai està limitat a tres dimensions i, si volem mostrar junts llibres relacionats, només podem fer-ho col·locant-los a la mateixa prestatgeria, la mateixa fila o el mateix departament. En el moment que et trobes amb un llibre de poemes sobre història natural, cal decidir on posar-lo o per contra comprar un segon exemplar i col·locar-lo als dos departaments. Una xarxa neuronal no té aquest problema, ja que pot fer ús de moltes més dimensions. Estem parlant de centenars i fins i tot milers de dimensions. Això permet als models construir espais on es poden crear relacions i similituds a molts nivells diferents i que, en un model ben entrenat, permet explorar-los amb fluïdesa per vies que van més enllà d’una taxonomia de termes i categories establertes.

A mesura que les xarxes neuronals aprenen a optimitzar les seves prediccions, solen crear conceptes abstractes que representen característiques de nivell superior en les dades. Per exemple, una xarxa entrenada amb imatges d’animals pot aprendre a reconèixer no sols espècies individuals, sinó també conceptes més abstractes com a “pelut” o “a ratlles”. Aquests conceptes abstractes no s’ensenyen explícitament a la xarxa neuronal, sinó que sorgeixen com a part del procés d’optimització. En un model de generació de textos com GPT-3, un concepte abstracte podria ser, per exemple, “l’estil de P.G. Wodehouse”. Mentres els humans necessitaríem consultar tot un assaig que descrigués el que això implica, para una xarxa neuronal aquest concepte pot representar-se com un vector que apunta al llarg d’un eix multidimensional en aquest espai. Això permet a GPT-3 transformar un paràgraf determinat en un text «en l’estil de P.G. Wodehouse» , conservant el significat del text original, però alterant el vocabulari i les estructures de les frases, de manera que a un lector ocasional el recordi l’estil d’aquest característic autor.

Per a mi, l’aspecte més emocionant de treballar amb espais latents és que ens estem acostant al punt on aquests models son capaços de “comprende” tot tipus de mitjans. I així, igual que en els nostres cervells, serem capaços de moure’ns lliurement entre diferents mitjans i diferents maneres d’expressió dins d’un espai fluid continu, en un tipus de sinestèsia en la qual una cançó pot transformar-se en una imatge, aquesta imatge pot traduir-se en un poema i el poema podria convertir-se en una altra cançó. El que significa que comprendre i jugar amb els espais latents es convertirà en un dels talents més versàtils que un pugui adquirir.

(Imatge de portada: Mario Klingemann, Mitosis)

Talent Latent

Magazine

Talent Latent

Cercar

Newsletter

Contacte