O post de hoje é uma colaboração com meu amigo de infância Andrés Silva :-) ------- Se você colocar um ponto aleatório em um quadrado unitário, há cerca de 78,5% de chance de ele cair dentro do círculo inscrito. Coloque um em um cubo unitário, e há 52,4% de chance de estar dentro da esfera inscrita. Na dimensão 10, essa probabilidade cai para 0,25%. Na dimensão 100, é efetivamente zero. Essa é a "maldição da dimensionalidade" – o padrão em qualquer curso de aprendizado de máquina e o tema de uma longa literatura matemática. A distância média entre pontos aleatórios em uma caixa foi proposta por Robbins e resolvida em 1978. Johan Philip derivou a distribuição completa para 3D. Esses problemas são bem conhecidos. O que queremos fazer aqui é algo um pouco diferente: comparar sistematicamente histogramas de distância entre diferentes geometrias (euclidiana, esférica, hiperbólica), topologias (hipercubo vs. toro) e dimensões – e então perguntar o que essas "assinaturas" podem revelar sobre espaços de imersão do mundo real em redes neurais. A ideia central: o histograma das distâncias par a par entre pontos aleatórios é uma impressão digital geométrica. Espaços diferentes deixam marcas diferentes. Você pode conseguir usar isso para diagnosticar em qual geometria seus dados estão secretamente vivendo. A História de Origem: Dois Andreses entram em um bar em Coyoacán... As ideias deste post surgiram de uma conversa entre nós dois (sim, ambos nos chamamos Andrés - bienvenidos a México). A situação: se você e um amigo forem deixados em locais aleatórios em um hipercubo n-dimensional, a que distância vocês estão, em média? E, mais interessante ainda, como é a distribuição das distâncias possíveis? "A questão é", como um de nós disse durante nossa discussão, "se você pega dois pontos aleatórios no espaço, como é a distribuição de distâncias? Tenho certeza de que você já pensou nesse problema?" - "Sim, e eu me perguntei sobre dimensões superiores." A resposta acaba sendo lindamente simples para o caso 1D (um segmento de linha): a distribuição das distâncias entre dois pontos aleatórios uniformes em [0,1] é triangular, com pico em 0. A maioria dos pares está próxima, e a probabilidade de estarem exatamente 1 de distância (o máximo) é exatamente zero – é um conjunto de medida zero. Mas o que acontece quando você adiciona wraparound? Quando, em vez de um segmento de linha, você está em um círculo? O truque do Toro: Sem Perda de Generalidade É aqui que surge a primeira bela percepção. Em um segmento de reta [0,1], a distância entre os pontos x e y é simplesmente |x - y|. Mas em um círculo (um 1-toro), você pode ir para qualquer direção. A distância "enrolada" é min(|x - y|, 1 - |x - y|). Ideia-chave: Em um toro, você sempre pode assumir que um ponto está na origem sem perder a generalidade. Por quê? Como o toro é homogêneo – cada ponto se parece com todos os outros pontos. Não há bordas, então não há cantos. Cada local onde você coloca o primeiro ponto é "o mesmo local". Se você colocar dois pontos aleatórios em um toro, sempre pode mentalmente transferir o espaço para que um ponto fique em zero. Isso significa que a distribuição das distâncias é completamente determinada pela distribuição da distância de um único ponto aleatório uniforme em relação a zero. No toro 1D (círculo), essa coordenada enrolada é uniforme em [0, 0,5]. Todo o problema se factoriza lindamente: em um toro plano n-dimensional, a distância total é: D = sqrt(D_1^2 + D_2^2 + ... + D_n^2) onde cada D_i é a distância de coordenadas enroladas em dimensão i, uniforme independentemente em [0, 0,5]. "Então você está olhando para a distribuição da norma euclidiana de um vetor cujos componentes são uniformes em [0, 0,5]", observou Andrés S. durante nossa conversa. "Você poderia ter um conjunto de medidas de metade de todas essas possibilidades..." ...