Dzisiejszy post jest współpracą z moim przyjacielem z dzieciństwa, Andrés Silva :-) ------- Jeśli wrzucisz losowy punkt do kwadratu jednostkowego, istnieje około 78,5% szans, że wyląduje wewnątrz wpisanego koła. Wrzucając jeden do sześcianu jednostkowego, istnieje 52,4% szans, że będzie wewnątrz wpisanej kuli. W wymiarze 10 prawdopodobieństwo to spada do 0,25%. W wymiarze 100 jest praktycznie zerowe. To jest "klątwa wymiarowości" - standardowy temat w każdym kursie uczenia maszynowego i przedmiot długiej literatury matematycznej. Średnia odległość między losowymi punktami w pudełku została postawiona przez Robbinsa i rozwiązana w 1978 roku. Johan Philip wyprowadził pełną dystrybucję dla 3D. Te problemy są dobrze znane. To, co chcemy zrobić tutaj, to coś nieco innego: systematycznie porównać histogramy odległości w różnych geometriach (euklidesowej, sferycznej, hiperbolicznej), topologiach (hipersześcian vs. torus) i wymiarach - a następnie zapytać, co te "sygnatury" mogą ujawnić o rzeczywistych przestrzeniach osadzenia w sieciach neuronowych. Główna idea: histogram odległości par punktów losowych jest geometrycznym odciskiem palca. Różne przestrzenie pozostawiają różne ślady. Możesz być w stanie użyć tego, aby zdiagnozować, w jakiej geometrii twoje dane tajemniczo żyją. Historia pochodzenia: Dwaj Andreses wchodzą do baru w Coyoacán... Pomysły w tym poście wyłoniły się z rozmowy między nami (tak, obaj nazywamy się Andrés - bienvenidos a México). Ustawienie: jeśli ty i przyjaciel zostaniecie losowo umieszczeni w n-wymiarowym hipersześcianie, jak daleko od siebie jesteście, przeciętnie? A co ciekawsze, jak wygląda rozkład możliwych odległości? "Chodzi o to," jak jeden z nas to ujął podczas naszej dyskusji, "jeśli złapiesz dwa losowe punkty w przestrzeni, jak wygląda rozkład odległości? Jestem pewien, że myślałeś o tym problemie?" - "tak, i zastanawiałem się nad wyższymi wymiarami." Odpowiedź okazuje się być pięknie prosta dla przypadku 1D (odcinek): rozkład odległości między dwoma losowymi punktami na [0,1] jest trójkątny, z wierzchołkiem w 0. Większość par jest blisko siebie, a prawdopodobieństwo, że będą dokładnie 1 od siebie (maksimum) jest dokładnie zerowe - to zbiór o miarze zerowej. Ale co się dzieje, gdy dodasz owinięcie? Kiedy zamiast odcinka jesteś na okręgu? Sztuczka torusa: bez utraty ogólności Tutaj pojawia się pierwszy piękny wgląd. Na odcinku [0,1] odległość między punktami x i y to po prostu |x - y|. Ale na okręgu (1-torusie) możesz iść w obie strony. "Owinięta" odległość to min(|x - y|, 1 - |x - y|). Kluczowa idea: na torusie zawsze możesz założyć, że jeden punkt znajduje się w punkcie zerowym bez utraty ogólności. Dlaczego? Ponieważ torus jest jednorodny - każdy punkt wygląda jak każdy inny punkt. Nie ma krawędzi, więc nie ma rogów. Każda lokalizacja, w której umieszczasz pierwszy punkt, jest "tą samą lokalizacją". Jeśli wrzucisz dwa losowe punkty na torus, zawsze możesz mentalnie przetłumaczyć przestrzeń, aby jeden punkt znajdował się w zerze. To oznacza, że rozkład odległości jest całkowicie określony przez rozkład odległości jednego losowego punktu od zera. Na 1D torusie (okręgu) ten owinięty współrzędna jest jednorodny na [0, 0.5]. Cały problem pięknie się rozkłada: w n-wymiarowym płaskim torusie całkowita odległość to: D = sqrt(D_1^2 + D_2^2 + ... + D_n^2) gdzie każdy D_i to owinięta odległość współrzędnej w wymiarze i, niezależnie jednorodna na [0, 0.5]. "Więc patrzysz na rozkład normy euklidesowej wektora, którego składniki są jednorodne na [0, 0.5]," zauważył Andrés S. podczas naszej rozmowy. "Mógłbyś mieć zbiór o miarze 1/2 wszystkich tych możliwości..." ...