Le post d'aujourd'hui est une collaboration avec mon ami d'enfance Andrés Silva :-) ------- Si vous placez un point aléatoire dans un carré unité, il y a environ 78,5 % de chances qu'il se trouve à l'intérieur du cercle inscrit. Si vous en placez un dans un cube unité, il y a 52,4 % de chances qu'il soit à l'intérieur de la sphère inscrite. À la dimension 10, cette probabilité tombe à 0,25 %. À la dimension 100, elle est pratiquement nulle. C'est ce qu'on appelle la "malédiction de la dimensionnalité" - un sujet standard dans n'importe quel cours d'apprentissage automatique, et le sujet d'une longue littérature mathématique. La distance moyenne entre des points aléatoires dans une boîte a été posée par Robbins et résolue en 1978. Johan Philip a dérivé la distribution complète pour la 3D. Ces problèmes sont bien connus. Ce que nous voulons faire ici est quelque chose d'un peu différent : comparer systématiquement les histogrammes de distance à travers différentes géométries (euclidienne, sphérique, hyperbolique), topologies (hypercube vs. tore), et dimensions - puis demander ce que ces "signatures" pourraient révéler sur les espaces d'incorporation du monde réel dans les réseaux neuronaux. L'idée principale : l'histogramme des distances par paires entre des points aléatoires est une empreinte géométrique. Différents espaces laissent des marques différentes. Vous pourriez être en mesure d'utiliser cela pour diagnostiquer quelle géométrie vos données vivent secrètement. L'histoire d'origine : Deux Andreses entrent dans un bar à Coyoacán... Les idées de ce post ont émergé d'une conversation entre nous deux (oui, nous nous appelons tous les deux Andrés - bienvenidos a México). Le cadre : si vous et un ami êtes tous deux placés à des emplacements aléatoires dans un hypercube n-dimensionnel, quelle est la distance moyenne entre vous ? Et plus intéressant encore, à quoi ressemble la distribution des distances possibles ? "Le fait est," comme l'un d'entre nous l'a dit lors de notre discussion, "si vous prenez deux points aléatoires dans l'espace, à quoi ressemble la distribution des distances ? Je suis sûr que vous avez réfléchi à ce problème ?" - "oui, et je me suis demandé à propos des dimensions supérieures." La réponse s'avère être d'une simplicité magnifique pour le cas 1D (un segment de ligne) : la distribution des distances entre deux points aléatoires uniformes sur [0,1] est triangulaire, avec un pic à 0. La plupart des paires sont proches l'une de l'autre, et la probabilité d'être exactement à 1 d'écart (le maximum) est précisément nulle - c'est un ensemble de mesure nulle. Mais que se passe-t-il lorsque vous ajoutez un wraparound ? Lorsque, au lieu d'un segment de ligne, vous êtes sur un cercle ? Le tour de force du tore : sans perte de généralité C'est ici que la première belle idée émerge. Sur un segment de ligne [0,1], la distance entre les points x et y est simplement |x - y|. Mais sur un cercle (un 1-tore), vous pouvez aller dans les deux directions. La distance "enroulée" est min(|x - y|, 1 - |x - y|). Idée clé : Sur un tore, vous pouvez toujours supposer qu'un point est à l'origine sans perte de généralité. Pourquoi ? Parce que le tore est homogène - chaque point ressemble à chaque autre point. Il n'y a pas de bords, donc il n'y a pas de coins. Chaque emplacement où vous placez le premier point est "le même emplacement". Si vous placez deux points aléatoires sur un tore, vous pouvez toujours mentalement traduire l'espace pour que l'un des points soit à zéro. Cela signifie que la distribution des distances est complètement déterminée par la distribution de la distance d'un seul point aléatoire uniforme par rapport à zéro. Sur le tore 1D (cercle), cette coordonnée enroulée est uniforme sur [0, 0,5]. Tout le problème se factorise magnifiquement : dans un tore plat n-dimensionnel, la distance totale est : D = sqrt(D_1^2 + D_2^2 + ... + D_n^2) où chaque D_i est la distance de coordonnée enroulée dans la dimension i, uniformément indépendante sur [0, 0,5]. "Donc vous regardez la distribution de la norme euclidienne d'un vecteur dont les composants sont uniformes sur [0, 0,5]," a noté Andrés S. lors de notre conversation. "Vous pourriez avoir un ensemble de mesure 1/2 de toutes ces possibilités..." ...