La publicación de hoy es una colaboración con mi amigo de la infancia Andrés Silva :-) ------- Si lanzas un punto aleatorio dentro de un cuadrado unitario, hay aproximadamente un 78.5% de probabilidad de que caiga dentro del círculo inscrito. Si lo lanzas dentro de un cubo unitario, hay un 52.4% de probabilidad de que esté dentro de la esfera inscrita. Para la dimensión 10, esa probabilidad cae al 0.25%. Para la dimensión 100, es prácticamente cero. Esta es la "maldición de la dimensionalidad" - un tema habitual en cualquier curso de aprendizaje automático, y el objeto de una larga literatura matemática. La distancia promedio entre puntos aleatorios en una caja fue planteada por Robbins y resuelta en 1978. Johan Philip derivó la distribución completa para 3D. Estos problemas están bien explorados. Lo que queremos hacer aquí es algo un poco diferente: comparar sistemáticamente histogramas de distancias a través de diferentes geometrías (euclidiana, esférica, hiperbólica), topologías (hipercubo vs. toro) y dimensiones - y luego preguntar qué podrían revelar estas "firmas" sobre los espacios de incrustación del mundo real en redes neuronales. La idea central: el histograma de distancias por pares entre puntos aleatorios es una huella geométrica. Diferentes espacios dejan diferentes marcas. Podrías usar esto para diagnosticar en qué geometría vive secretamente tus datos. La Historia de Origen: Dos Andreses Entrando a un Bar en Coyoacán... Las ideas en esta publicación surgieron de una conversación entre los dos (sí, ambos nos llamamos Andrés - bienvenidos a México). La premisa: si tú y un amigo son dejados en ubicaciones aleatorias en un hipercubo n-dimensional, ¿qué tan lejos están, en promedio? Y más interesante, ¿cómo se ve la distribución de las posibles distancias? "El asunto es," como uno de nosotros lo expresó durante nuestra discusión, "si tomas dos puntos aleatorios en el espacio, ¿cómo se ve la distribución de distancias? Estoy seguro de que has pensado en este problema" - "sí, y me preguntaba sobre dimensiones superiores." La respuesta resulta ser maravillosamente simple para el caso 1D (un segmento de línea): la distribución de distancias entre dos puntos aleatorios uniformes en [0,1] es triangular, con un pico en 0. La mayoría de los pares están cerca uno del otro, y la probabilidad de estar exactamente a 1 de distancia (el máximo) es precisamente cero - es un conjunto de medida cero. Pero, ¿qué pasa cuando añades el envolvimiento? ¿Cuando en lugar de un segmento de línea, estás en un círculo? El Truco del Toro: Sin Pérdida de Generalidad Aquí es donde surge la primera hermosa idea. En un segmento de línea [0,1], la distancia entre los puntos x e y es simplemente |x - y|. Pero en un círculo (un 1-toro), puedes ir en cualquier dirección. La distancia "envuelta" es min(|x - y|, 1 - |x - y|). Idea Clave: En un toro, siempre puedes asumir que un punto está en el origen sin pérdida de generalidad. ¿Por qué? Porque el toro es homogéneo - cada punto se parece a cualquier otro punto. No hay bordes, así que no hay esquinas. Cada ubicación donde coloques el primer punto es "la misma ubicación". Si lanzas dos puntos aleatorios en un toro, siempre puedes traducir mentalmente el espacio para que un punto esté en cero. Esto significa que la distribución de distancias está completamente determinada por la distribución de la distancia de un solo punto aleatorio uniforme desde cero. En el toro 1D (círculo), esta coordenada envuelta es uniforme en [0, 0.5]. Todo el problema se factoriza maravillosamente: en un toro plano n-dimensional, la distancia total es: D = sqrt(D_1^2 + D_2^2 + ... + D_n^2) donde cada D_i es la distancia de coordenada envuelta en la dimensión i, uniformemente independiente en [0, 0.5]. "Así que estás mirando la distribución de la norma euclidiana de un vector cuyos componentes son uniformes en [0, 0.5]," notó Andrés S. durante nuestra conversación. "Podrías tener un conjunto de medida 1/2 de todas esas posibilidades..."...