Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
O post de hoje é uma colaboração com meu amigo de infância Andrés Silva :-)
-------
Se você jogar um ponto aleatório dentro de um quadrado unitário, há cerca de 78,5% de chance de que ele caia dentro do círculo inscrito. Jogue um em um cubo unitário e há 52,4% de chance de que esteja dentro da esfera inscrita. Na dimensão 10, essa probabilidade cai para 0,25%. Na dimensão 100, é efetivamente zero.
Esse é o "maldição da dimensionalidade" - um tema padrão em qualquer curso de aprendizado de máquina, e o assunto de uma longa literatura matemática. A distância média entre pontos aleatórios em uma caixa foi proposta por Robbins e resolvida em 1978. Johan Philip derivou a distribuição completa para 3D. Esses problemas são bem conhecidos.
O que queremos fazer aqui é algo um pouco diferente: comparar sistematicamente histogramas de distância entre diferentes geometrias (euclidiana, esférica, hiperbólica), topologias (hipercubo vs. toro) e dimensões - e então perguntar o que essas "assinaturas" podem revelar sobre espaços de incorporação do mundo real em redes neurais.
A ideia central: o histograma das distâncias par a par entre pontos aleatórios é uma impressão digital geométrica. Espaços diferentes deixam marcas diferentes. Você pode ser capaz de usar isso para diagnosticar em que geometria seus dados estão secretamente vivendo.
A História de Origem: Dois Andreses Entram em um Bar em Coyoacán...
As ideias deste post surgiram de uma conversa entre nós dois (sim, ambos nos chamamos Andrés - bienvenidos a México). O cenário: se você e um amigo forem deixados em locais aleatórios em um hipercubo n-dimensional, quão longe vocês estão, em média? E mais interessante, como é a distribuição das distâncias possíveis?
"A questão é," como um de nós colocou durante nossa discussão, "se você pegar dois pontos aleatórios no espaço, como é a distribuição de distâncias? Tenho certeza de que você já pensou sobre esse problema?" - "sim, e eu me perguntei sobre dimensões superiores."
A resposta acaba sendo lindamente simples para o caso 1D (um segmento de linha): a distribuição de distâncias entre dois pontos aleatórios uniformes em [0,1] é triangular, com pico em 0. A maioria dos pares está próxima um do outro, e a probabilidade de estar exatamente 1 de distância (o máximo) é precisamente zero - é um conjunto de medida zero.
Mas o que acontece quando você adiciona a volta? Quando, em vez de um segmento de linha, você está em um círculo?
O Truque do Toro: Sem Perda de Generalidade
Aqui é onde a primeira bela percepção emerge. Em um segmento de linha [0,1], a distância entre os pontos x e y é apenas |x - y|. Mas em um círculo (um 1-toro), você pode ir em qualquer direção. A distância "enrolada" é min(|x - y|, 1 - |x - y|).
Ideia Principal: Em um toro, você pode sempre assumir que um ponto está na origem sem perda de generalidade.
Por quê? Porque o toro é homogêneo - cada ponto parece com qualquer outro ponto. Não há bordas, então não há cantos. Cada local onde você coloca o primeiro ponto é "o mesmo local". Se você jogar dois pontos aleatórios em um toro, pode sempre mentalmente traduzir o espaço para que um ponto fique em zero. Isso significa que a distribuição de distâncias é completamente determinada pela distribuição da distância de um único ponto aleatório uniforme a partir de zero.
No toro 1D (círculo), essa coordenada enrolada é uniforme em [0, 0.5]. Todo o problema se fatora lindamente: em um toro plano n-dimensional, a distância total é:
D = sqrt(D_1^2 + D_2^2 + ... + D_n^2)
onde cada D_i é a distância da coordenada enrolada na dimensão i, uniformemente independente em [0, 0.5].
"Então você está olhando para a distribuição da norma euclidiana de um vetor cujos componentes são uniformes em [0, 0.5]," observou Andrés S. durante nossa conversa. "Você poderia ter um conjunto de medida 1/2 de todas essas possibilidades..."
...
Top
Classificação
Favoritos
