Der heutige Beitrag ist eine Zusammenarbeit mit meinem Kindheitsfreund Andrés Silva :-) ------- Wenn du einen zufälligen Punkt in ein Einheitsquadrat wirfst, gibt es etwa eine 78,5% Chance, dass er im eingeschriebenen Kreis landet. Wirfst du einen in einen Einheitswürfel, liegt die Chance bei 52,4%, dass er im eingeschriebenen Sphere ist. Bei Dimension 10 sinkt diese Wahrscheinlichkeit auf 0,25%. Bei Dimension 100 ist sie praktisch null. Das ist der "Fluch der Dimensionalität" - Standardkost in jedem Kurs über maschinelles Lernen und das Thema einer langen mathematischen Literatur. Die durchschnittliche Distanz zwischen zufälligen Punkten in einer Box wurde von Robbins aufgeworfen und 1978 gelöst. Johan Philip leitete die vollständige Verteilung für 3D ab. Diese Probleme sind gut erforscht. Was wir hier tun wollen, ist etwas anders: systematisch Distanzhistogramme über verschiedene Geometrien (euklidisch, sphärisch, hyperbolisch), Topologien (Hypercube vs. Torus) und Dimensionen zu vergleichen - und dann zu fragen, was diese "Signaturen" über reale Einbettungsräume in neuronalen Netzwerken offenbaren könnten. Die Kernidee: Das Histogramm der paarweisen Distanzen zwischen zufälligen Punkten ist ein geometrischer Fingerabdruck. Verschiedene Räume hinterlassen unterschiedliche Spuren. Du könntest dies nutzen, um zu diagnostizieren, in welcher Geometrie deine Daten heimlich leben. Die Ursprungsgeschichte: Zwei Andreses gehen in eine Bar in Coyoacán... Die Ideen in diesem Beitrag entstanden aus einem Gespräch zwischen uns beiden (ja, wir heißen beide Andrés - bienvenidos a México). Die Ausgangsfrage: Wenn du und ein Freund an zufälligen Orten in einem n-dimensionalen Hypercube abgesetzt werdet, wie weit seid ihr im Durchschnitt voneinander entfernt? Und interessanterweise, wie sieht die Verteilung der möglichen Distanzen aus? "Die Sache ist die," wie einer von uns während unserer Diskussion sagte, "wenn du zwei zufällige Punkte im Raum nimmst, wie sieht die Distanzverteilung aus? Ich bin mir sicher, du hast über dieses Problem nachgedacht?" - "Ja, und ich habe über höhere Dimensionen nachgedacht." Die Antwort stellt sich für den 1D-Fall (ein Liniensegment) als wunderschön einfach heraus: Die Verteilung der Distanzen zwischen zwei gleichmäßig zufälligen Punkten auf [0,1] ist dreieckig, mit einem Gipfel bei 0. Die meisten Paare sind nah beieinander, und die Wahrscheinlichkeit, genau 1 entfernt zu sein (das Maximum), ist genau null - es ist eine Menge von Maß null. Aber was passiert, wenn du eine Umrandung hinzufügst? Wenn du anstelle eines Liniensegments auf einem Kreis bist? Der Torus-Trick: Ohne Verlust der Allgemeinheit Hier kommt die erste schöne Einsicht zum Vorschein. Auf einem Liniensegment [0,1] ist die Distanz zwischen den Punkten x und y einfach |x - y|. Aber auf einem Kreis (einem 1-Torus) kannst du in beide Richtungen gehen. Die "umwickelte" Distanz ist min(|x - y|, 1 - |x - y|). Kernidee: Auf einem Torus kannst du immer annehmen, dass ein Punkt am Ursprung ist, ohne Verlust der Allgemeinheit. Warum? Weil der Torus homogen ist - jeder Punkt sieht aus wie jeder andere Punkt. Es gibt keine Kanten, also gibt es keine Ecken. Jeder Ort, an dem du den ersten Punkt platzierst, ist "der gleiche Ort". Wenn du zwei zufällige Punkte auf einem Torus absetzt, kannst du den Raum immer mental so verschieben, dass ein Punkt bei null sitzt. Das bedeutet, dass die Verteilung der Distanzen vollständig durch die Verteilung der Distanz eines einzelnen gleichmäßig zufälligen Punktes von null bestimmt wird. Auf dem 1D-Torus (Kreis) ist diese umwickelte Koordinate gleichmäßig auf [0, 0,5]. Das gesamte Problem faktorisiert sich wunderschön: In einem n-dimensionalen flachen Torus ist die Gesamtdistanz: D = sqrt(D_1^2 + D_2^2 + ... + D_n^2) wo jedes D_i die umwickelte Koordinatendistanz in Dimension i ist, unabhängig gleichmäßig auf [0, 0,5]. "Also schaust du dir die Verteilung der euklidischen Norm eines Vektors an, dessen Komponenten gleichmäßig auf [0, 0,5] verteilt sind," bemerkte Andrés S. während unseres Gesprächs. "Du könntest eine Menge von Maß 1/2 all dieser Möglichkeiten haben..." ...