O post de hoje é uma colaboração com meu amigo de infância Andrés Silva :-) ------- Se você jogar um ponto aleatório dentro de um quadrado unitário, há cerca de 78,5% de chance de que ele caia dentro do círculo inscrito. Jogue um em um cubo unitário e há 52,4% de chance de que esteja dentro da esfera inscrita. Na dimensão 10, essa probabilidade cai para 0,25%. Na dimensão 100, é efetivamente zero. Esse é o "maldição da dimensionalidade" - um tema padrão em qualquer curso de aprendizado de máquina, e o assunto de uma longa literatura matemática. A distância média entre pontos aleatórios em uma caixa foi proposta por Robbins e resolvida em 1978. Johan Philip derivou a distribuição completa para 3D. Esses problemas são bem conhecidos. O que queremos fazer aqui é algo um pouco diferente: comparar sistematicamente histogramas de distância entre diferentes geometrias (euclidiana, esférica, hiperbólica), topologias (hipercubo vs. toro) e dimensões - e então perguntar o que essas "assinaturas" podem revelar sobre espaços de incorporação do mundo real em redes neurais. A ideia central: o histograma das distâncias par a par entre pontos aleatórios é uma impressão digital geométrica. Espaços diferentes deixam marcas diferentes. Você pode ser capaz de usar isso para diagnosticar em que geometria seus dados estão secretamente vivendo. A História de Origem: Dois Andreses Entram em um Bar em Coyoacán... As ideias deste post surgiram de uma conversa entre nós dois (sim, ambos nos chamamos Andrés - bienvenidos a México). O cenário: se você e um amigo forem deixados em locais aleatórios em um hipercubo n-dimensional, quão longe vocês estão, em média? E mais interessante, como é a distribuição das distâncias possíveis? "A questão é," como um de nós colocou durante nossa discussão, "se você pegar dois pontos aleatórios no espaço, como é a distribuição de distâncias? Tenho certeza de que você já pensou sobre esse problema?" - "sim, e eu me perguntei sobre dimensões superiores." A resposta acaba sendo lindamente simples para o caso 1D (um segmento de linha): a distribuição de distâncias entre dois pontos aleatórios uniformes em [0,1] é triangular, com pico em 0. A maioria dos pares está próxima um do outro, e a probabilidade de estar exatamente 1 de distância (o máximo) é precisamente zero - é um conjunto de medida zero. Mas o que acontece quando você adiciona a volta? Quando, em vez de um segmento de linha, você está em um círculo? O Truque do Toro: Sem Perda de Generalidade Aqui é onde a primeira bela percepção emerge. Em um segmento de linha [0,1], a distância entre os pontos x e y é apenas |x - y|. Mas em um círculo (um 1-toro), você pode ir em qualquer direção. A distância "enrolada" é min(|x - y|, 1 - |x - y|). Ideia Principal: Em um toro, você pode sempre assumir que um ponto está na origem sem perda de generalidade. Por quê? Porque o toro é homogêneo - cada ponto parece com qualquer outro ponto. Não há bordas, então não há cantos. Cada local onde você coloca o primeiro ponto é "o mesmo local". Se você jogar dois pontos aleatórios em um toro, pode sempre mentalmente traduzir o espaço para que um ponto fique em zero. Isso significa que a distribuição de distâncias é completamente determinada pela distribuição da distância de um único ponto aleatório uniforme a partir de zero. No toro 1D (círculo), essa coordenada enrolada é uniforme em [0, 0.5]. Todo o problema se fatora lindamente: em um toro plano n-dimensional, a distância total é: D = sqrt(D_1^2 + D_2^2 + ... + D_n^2) onde cada D_i é a distância da coordenada enrolada na dimensão i, uniformemente independente em [0, 0.5]. "Então você está olhando para a distribuição da norma euclidiana de um vetor cujos componentes são uniformes em [0, 0.5]," observou Andrés S. durante nossa conversa. "Você poderia ter um conjunto de medida 1/2 de todas essas possibilidades..." ...