Dagens inlägg är ett samarbete med min barndomsvän Andrés Silva :-) ------- Om du lägger en slumpmässig punkt i en enhetsruta finns det ungefär 78,5 % chans att den landar inom den inskrivna cirkeln. Lägg en i en enhetskub, och det finns 52,4 % chans att den är inne i den inskrivna sfären. Vid dimension 10 sjunker den sannolikheten till 0,25%. Vid dimension 100 är det i praktiken noll. Detta är "dimensionsförbannelsen" – standardmaterial i alla maskininlärningskurser och ämnet för en lång matematisk litteratur. Det genomsnittliga avståndet mellan slumpmässiga punkter i en låda fastställdes av Robbins och löstes 1978. Johan Philip härledde hela fördelningen för 3D. Dessa problem är väl upptrampade. Det vi vill göra här är något lite annorlunda: systematiskt jämföra avståndshistogram över olika geometrier (euklidisk, sfärisk, hyperbolisk), topologier (hyperkub vs. torus) och dimensioner – och sedan fråga vad dessa "signaturer" kan avslöja om verkliga inbäddningsrum i neurala nätverk. Kärnidén: histogrammet för parvisa avstånd mellan slumpmässiga punkter är ett geometriskt fingeravtryck. Olika utrymmen lämnar olika spår. Du kanske kan använda detta för att diagnostisera vilken geometri din data hemligen lever i. Ursprungshistorien: Två Andrés går in på en bar i Coyoacán... Idéerna i det här inlägget kom fram ur ett samtal mellan oss två (ja, vi heter båda Andrés – bienvenidos a México). Upplägget: om du och en vän båda släpps på slumpmässiga platser i en n-dimensionell hyperkub, hur långt ifrån varandra är ni i genomsnitt? Och ännu mer intressant, hur ser fördelningen av möjliga avstånd ut? "Grejen är," som en av oss uttryckte det under vår diskussion, "om du tar två slumpmässiga punkter i rymden, hur ser avståndsfördelningen ut? Jag är säker på att du har funderat på det här problemet?" - "Ja, och jag undrade över högre dimensioner." Svaret visar sig vara vackert enkelt för 1D-fallet (ett linjesegment): fördelningen av avstånd mellan två uniforma slumpmässiga punkter på [0,1] är triangulär, med en topp på 0. De flesta par ligger nära varandra, och sannolikheten att vara exakt 1 ifrån varandra (maximumet) är exakt noll – det är en mängd av mått noll. Men vad händer när du lägger till wraparound? När du istället för ett linjesegment är på en cirkel? Torustricket: Utan förlust av allmän betydelse Här framträder den första vackra insikten. På ett linjesegment [0,1] är avståndet mellan punkterna x och y bara |x - y|. Men på en cirkel (en 1-torus) kan du gå åt båda hållen. Det "inlindade" avståndet är min(|x - y|, 1 - |x - y|). Nyckelidé: På en torus kan du alltid anta att en punkt är vid origo utan att förlora allmängiltighet. Varför? Eftersom torusen är homogen – varje punkt ser ut som alla andra punkter. Det finns inga kanter, så det finns inga hörn. Varje plats där du placerar den första punkten är "samma plats". Om du släpper två slumpmässiga punkter på en torus kan du alltid mentalt flytta utrymmet så att en punkt ligger på noll. Detta innebär att fördelningen av avstånd helt bestäms av fördelningen av avståndet till en enda uniform slumpmässig punkt från noll. På den 1D-torusen (cirkeln) är denna lindade koordinat uniform på [0, 0,5]. Hela problemet fungerar vackert: i en n-dimensionell platt torus är det totala avståndet: D = sqrt(D_1^2 + D_2^2 + ... + D_n^2) där varje D_i är det omslutna koordinatavståndet i dimension i, oberoende uniformt på [0, 0,5]. "Så du tittar på fördelningen av den euklidiska normen för en vektor vars komponenter är uniforma på [0, 0,5]," noterade Andrés S. under vårt samtal. "Du skulle kunna ha ett mått som är hälften av alla dessa möjligheter..." ...