La publicación de hoy es una colaboración con mi amigo de la infancia Andrés Silva :-) ------- Si colocas un punto aleatorio en una casilla de unidad, hay aproximadamente un 78,5% de probabilidad de que caiga dentro del círculo inscrito. Si sueltas uno en un cubo unitario, hay un 52,4% de probabilidad de que esté dentro de la esfera inscrita. Para la dimensión 10, esa probabilidad cae al 0,25%. Para la dimensión 100, es prácticamente cero. Esta es la "maldición de la dimensionalidad", algo estándar en cualquier curso de aprendizaje automático, y el tema de una extensa literatura matemática. La distancia media entre puntos aleatorios en una caja fue planteada por Robbins y resuelta en 1978. Johan Philip derivó la distribución completa para 3D. Estos problemas están muy transitados. Lo que queremos hacer aquí es algo un poco diferente: comparar sistemáticamente histogramas de distancias entre diferentes geometrías (euclidiana, esférica, hiperbólica), topologías (hipercubo vs. toro) y dimensiones, y luego preguntarnos qué podrían revelar estas "firmas" sobre los espacios de incrustación del mundo real en redes neuronales. La idea central: el histograma de distancias por pares entre puntos aleatorios es una huella geométrica. Diferentes espacios dejan marcas distintas. Quizá puedas usar esto para diagnosticar en qué geometría están tus datos en secreto. La historia de origen: Dos Andrés entran en un bar en Coyoacán... Las ideas de esta publicación surgieron de una conversación entre nosotros dos (sí, ambos nos llamamos Andrés - bienvenidos a México). La introducción: si tú y un amigo quedáis en lugares aleatorios dentro de un hipercubo n-dimensional, ¿a qué distancia estáis, de media? Y más interesante aún, ¿cómo es la distribución de las posibles distancias? "La cuestión es", como dijo uno de nosotros durante nuestra conversación, "si coges dos puntos aleatorios en el espacio, ¿cómo es la distribución de distancias? Seguro que has pensado en este problema?" - "Sí, y me preguntaba por dimensiones superiores." La respuesta resulta ser bellamente sencilla para el caso 1D (un segmento de recta): la distribución de distancias entre dos puntos aleatorios uniformes en [0,1] es triangular, con pico en 0. La mayoría de los pares están muy cerca, y la probabilidad de estar exactamente separados por 1 (el máximo) es precisamente cero: es un conjunto de medida cero. ¿Pero qué ocurre cuando añades wraparound? ¿Cuándo, en vez de un segmento de línea, estás en un círculo? El truco del toro: sin pérdida de generalidad Aquí es donde surge la primera gran revelación. En un segmento de línea [0,1], la distancia entre los puntos x e y es simplemente |x - y|. Pero en un círculo (un 1-toro), puedes ir en cualquier dirección. La distancia "envuelta" es min(|x - y|, 1 - |x - y|). Idea clave: En un toro, siempre puedes asumir que un punto está en el origen sin perder generalidad. ¿Por qué? Como el toro es homogéneo: cada punto se parece a cualquier otro punto. No hay bordes, así que no hay esquinas. Cada ubicación donde colocas el primer punto es "la misma ubicación". Si dejas caer dos puntos aleatorios en un toro, siempre puedes traducir mentalmente el espacio para que un punto quede en cero. Esto significa que la distribución de distancias está completamente determinada por la distribución de la distancia de un único punto aleatorio uniforme respecto a cero. En el toro 1D (círculo), esta coordenada envuelta es uniforme en [0, 0,5]. Todo el problema se factoriza de forma maravillosa: en un toro plano de n dimensiones, la distancia total es: D = sqrt(D_1^2 + D_2^2 + ... + D_n^2) donde cada D_i es la distancia de coordenadas envueltas en dimensión i, uniforme de forma independiente en [0, 0,5]. "Así que estás observando la distribución de la norma euclidiana de un vector cuyos componentes son uniformes en [0, 0,5]", señaló Andrés S. durante nuestra conversación. "Podrías tener un conjunto de medidas a la mitad de todas esas posibilidades..." ...