Latent Talent / Latent space de Mario Klingemann

Magazine

13 marzo 2023
Tema del Mes: Latent space & AI artEditor/a Residente: Pau Waelder

La creciente popularidad de la inteligencia artificial está introduciendo en nuestro vocabulario cotidiano un término que, como el propio término “IA (inteligencia artificial)”, parece tener distintos significados para distintas personas: es el término «espacio latente». Como artista que ha incorporado la IA en su en su práctica artística, siento un profundo afecto por este término que, al menos a mi entender, está en el núcleo de los procesos que habitualmente denominamos “IA.” La interpretación que hago del mismo me aporta la convicción suficiente para concebir la inteligencia artificial como un nuevo medio, y no sólo como una herramienta tecnológica de última generación. En este artículo, trataré de esbozar algunas ideas acerca de lo que el “espacio latente” significa para mí, cómo lo percibo, lo usoy me muevo por él.

Sería más correcto hablar de espacios latentes en plural: el singular puede dar lugar a equivocaciones, ya que sugeriría unicidad, o sea un espacio común compartido por todas las inteligencias artificiales que existen, como el universo o el ciberespacio. En realidad, hay tantos espacios latentes como modelos y arquitecturas neuronales. Con todo, estos diferentes espacios latentes comparten propiedades, comportamientos y reglas que nos permiten emplear el conocimiento y las técnicas que ya hemos aprendido en un determinado espacio para aplicarlo a cualquiera que encontremos más adelante. Sería similar a cuando aprendemos a montar en bicicleta o tocar el piano:tras dominar estas actividades, llega un momento en que ya no importa la marca de la bicicleta o del instrumento. Por tanto, me tomaré la libertad de hablar sobre el «espacio latente» en singular.

La dificultad de explicar el espacio latente es que, como ocurre con un agujero negro, no puede observarse directamente. Sólo podemos hacernos una idea de su forma y sus leyes naturales observando cómo interactúa con su entorno. Por eso, debo recurrir a metáforas y comparaciones para describir los fenómenos que encuentro, y es que todavía no hemos desarrollado un vocabulario común, ni una taxonomía, para hablar de él.

Pero, ¿qué es el espacio? Hace poco descubrí el texto La nueva visión(1928) de Lázló Moholy-Nagy. Este texto fundamental es un manifiesto sobre la relación entre el artista y el espacio. Su definición del espacio, derivada de la definición física, es: «el espacio es la relación de posición de los cuerpos». Dicha definición capta exactamente como yo percibo el espacio latente. La única diferencia es que, en lugar de cuerpos físicos, el espacio latente es la relación de posición de la información. Esta información puede adoptar formas distintas según el modelo y los datos con los que se haya entrenado: por ejemplo, el significado de palabras, las estructuras micro y macro de los datos visuales, la codificación de los sonidos, las configuraciones de las posturas humanas… Literalmente, cualquier cosa que pueda traducirse a un formato digital para ser posteriormente comprimida y transformada en un vector multidimensional. Estas integraciones o vectores de características se convierten en los «cuerpos» que crean el espacio latente y sus relaciones son las distancias matemáticas que hay entre ellos.

Cada vez que se dispone de más de un cuerpo en un espacio, se está creando un orden. La cuestión de si algunas de estas configuraciones son superiores a otras está en el centro de discursos filosóficos y estéticos, pero encontramos un criterio para determinar la calidad de un orden en su improbabilidad. Reconocemos instintivamente las disposiciones estéticas por el hecho de que no nos parecen aleatorias o «normales»: un «buen» orden suele ser extraño y, según nuestra experiencia, no se forma por accidente, sino como resultado de un esfuerzo intencionado o de una selección precisa. Pero ¿cómo podemos determinar cuán improbable es un orden propuesto, en comparación con todas las demás configuraciones posibles de los mismos cuerpos? Para ello hay que medir y sumar todas las similitudes de cada cuerpo con todos sus vecinos en un espacio. Haciéndolo para muchos ordenamientos diferentes, podemos observar que las sumas que obtenemos siempre seguirán una distribución gaussiana: habrá un gran cuerpo central de sumas «medias» donde se encuentran la mayoría de los ordenamientos que nos parecen aleatorios o esperados. Al mismo tiempo, en los extremos exteriores de esa curva habrá muy pocas disposiciones inusuales, ya que sus sumas son, o bien muy grandes —lo que en medida de similitud significa que los cuerpos similares se han colocado lo más lejos posible unos de otros— o bien muy pequeñas. Esta última es la que solemos percibir como la disposición más significativa, ya que los cuerpos similares se han colocado tan cerca unos de otros, como lo permiten las dimensiones del espacio que forman.

Permítanme ilustrarlo con un ejemplo muy sencillo: tomemos los números del 1 al 6, tal y como se encuentran en un dado. Hay 720 formas distintas de ordenar estos números en una línea, por ejemplo: 4-2-5-6-1-3, 6-1-2-3-5-4, 1-2-3-4-5-6 o 3-6-5-1-4-2. Ahora bien, ¿por qué 1-2-3-4-5-6 se destaca de los otros órdenes? Partiendo del hecho de que hemos aprendido en la escuela que éste es el orden natural de los números, también se puede demostrar matemáticamente que este orden es diferente del resto. Si nos fijamos en las diferencias de cada número con sus vecinos de la izquierda y la derecha, la suma de estas diferencias en el caso de 425613 es 13; en el de 612354 es 10; en el de 365142 también es 13; pero para 123456 es tan sólo 5. Sólo hay otra disposición entre las 720 que es igual de extraña, y es la 6-5-4-3-2-1. Con todo, puede parecer muy ingenuo afirmar que estas leyes derivadas de un modelo matemático simplificado se generalizan a «… y así es como se organiza el mundo.» No obstante, esto es exactamente lo que hacemos. La diferencia entre 123456 y la capacidad de distinguir un gato de un perro o escribir un poema, es en su mayoría, una cuestión de dimensionalidad.

Los modelos crean un espacio latente intentando organizar todo lo que aprenden en una configuración que sea la más probable y eficiente. Así, cuando se les consulte más adelante, darán una respuesta probablemente correcta. Y la disposición más eficiente para volver a encontrar algoes colocar ese algo junto con aquellos otros elementos con los que comparte características, como en una biblioteca, donde no se coloca un libro de poesía en la estantería de historia natural. Una de las ventajas de las redes neuronales con respecto a las bibliotecas, es que disponen de muchas más dimensiones. En una biblioteca física, el espacio está limitado a tres dimensiones y, si queremos mostrar juntos libros relacionados, sólo podemos hacerlo colocándolos en la misma estantería, la misma fila o el mismo departamento. En el momento en que te encuentras con un libro de poemas sobre historia natural, hay que decidir donde ponerlo o por el contrario comprar un segundo ejemplar y colocarlo en los dos departamentos. Una red neuronal no tiene ese problema, ya que puede hacer uso de muchas más dimensiones. Estamos hablando de cientos e incluso miles de dimensiones. Esto permite a los modelos construir espacios en los que se pueden crear relaciones y similitudes a muchos niveles distintos y que, en un modelo bien entrenado, permite explorarlos con fluidez por vías que van más allá de una taxonomía de términos y categorías establecidas.

A medida que las redes neuronales aprenden a optimizar sus predicciones, suelen crear conceptos abstractos que representan características de nivel superior en los datos. Por ejemplo, una red entrenada con imágenes de animales puede aprender a reconocer no sólo especies individuales, sino también conceptos más abstractos como «peludo» o «a rayas». Estos conceptos abstractos no se enseñan explícitamente a la red neuronal, sino que surgen como parte del proceso de optimización. En un modelo de generación de textos como GPT-3, un concepto abstracto podría ser, por ejemplo, «el estilo de P.G. Wodehouse». Mientras los humanos necesitaríamos consultar todo un ensayo que describiera lo que eso implica, para una red neuronal este concepto puede representarse como un vector que apunta a lo largo de un eje multidimensional en ese espacio. Esto le permite a GPT-3 transformar un párrafo determinado en un texto «en el estilo de P.G. Wodehouse» , conservando el significado del texto original, pero alterando el vocabulario y las estructuras de las frases, de manera que a un lector ocasional le recuerde el estilo de este característico autor.

Para mí, lo más emocionante de trabajar con espacios latentes es que nos estamos acercando a un punto en el que estos modelos son capaces de “comprender” todo tipo de medios. Y así, al igual que en nuestros cerebros, podremos movernos libremente entre diferentes medios y diferentes modos de expresión dentro de un espacio fluido continuo,en un tipo de sinestesia en la que una canción se puede transformar en una imagen, esa imagen puede traducirse a un poema y el poema podría convertirse en otra canción. Eso significa que comprender y jugar con espacios latentes se convertirá en uno de los talentos más versátiles que uno pueda adquirir.

(Imagen de portada: Mario Klingemann, Mitosis)

Talento Latente

Magazine

Talento Latente

Buscar

Newsletter

Contacto