Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Il post di oggi è una collaborazione con il mio amico d'infanzia Andrés Silva :-)
-------
Se lanci un punto casuale in un quadrato unitario, c'è circa il 78,5% di probabilità che cada all'interno del cerchio inscritto. Se lo lanci in un cubo unitario, c'è una probabilità del 52,4% che si trovi all'interno della sfera inscritta. A dimensione 10, quella probabilità scende allo 0,25%. A dimensione 100, è praticamente zero.
Questa è la "maledizione della dimensionalità" - un argomento standard in qualsiasi corso di machine learning, e oggetto di una lunga letteratura matematica. La distanza media tra punti casuali in una scatola è stata proposta da Robbins e risolta nel 1978. Johan Philip ha derivato la distribuzione completa per il 3D. Questi problemi sono ben noti.
Quello che vogliamo fare qui è qualcosa di un po' diverso: confrontare sistematicamente gli istogrammi delle distanze attraverso diverse geometrie (euclidea, sferica, iperbolica), topologie (iper-cubo vs. toro) e dimensioni - e poi chiedere cosa potrebbero rivelare queste "firme" sugli spazi di embedding del mondo reale nelle reti neurali.
L'idea centrale: l'istogramma delle distanze a coppie tra punti casuali è un'impronta geometrica. Spazi diversi lasciano segni diversi. Potresti essere in grado di usare questo per diagnosticare in quale geometria i tuoi dati vivono segretamente.
La Storia delle Origini: Due Andreses Entrano in un Bar a Coyoacán...
Le idee in questo post sono emerse da una conversazione tra noi due (sì, entrambi ci chiamiamo Andrés - bienvenidos a México). L'impostazione: se tu e un amico venite entrambi lasciati in posizioni casuali in un iper-cubo n-dimensionale, quanto distanti siete, in media? E, più interessante, come appare la distribuzione delle possibili distanze?
"Il fatto è," come ha detto uno di noi durante la nostra discussione, "se prendi due punti casuali nello spazio, come appare la distribuzione delle distanze? Sono sicuro che hai pensato a questo problema?" - "sì, e mi sono chiesto delle dimensioni superiori."
La risposta si rivela essere splendidamente semplice per il caso 1D (un segmento di linea): la distribuzione delle distanze tra due punti casuali uniformi su [0,1] è triangolare, con un picco a 0. La maggior parte delle coppie è vicina, e la probabilità di essere esattamente 1 di distanza (il massimo) è precisamente zero - è un insieme di misura zero.
Ma cosa succede quando aggiungi il wraparound? Quando invece di un segmento di linea, sei su un cerchio?
Il Trucco del Toro: Senza Perdita di Generalità
Ecco dove emerge il primo bellissimo insight. Su un segmento di linea [0,1], la distanza tra i punti x e y è semplicemente |x - y|. Ma su un cerchio (un 1-toro), puoi andare in entrambe le direzioni. La distanza "avvolta" è min(|x - y|, 1 - |x - y|).
Idea Chiave: Su un toro, puoi sempre assumere che un punto sia all'origine senza perdita di generalità.
Perché? Perché il toro è omogeneo - ogni punto sembra come ogni altro punto. Non ci sono bordi, quindi non ci sono angoli. Ogni posizione in cui posizioni il primo punto è "la stessa posizione". Se lasci cadere due punti casuali su un toro, puoi sempre mentalmente tradurre lo spazio in modo che un punto si trovi a zero. Questo significa che la distribuzione delle distanze è completamente determinata dalla distribuzione della distanza di un singolo punto casuale uniforme da zero.
Sul toro 1D (cerchio), questa coordinata avvolta è uniforme su [0, 0.5]. L'intero problema si fattorizza splendidamente: in un toro piatto n-dimensionale, la distanza totale è:
D = sqrt(D_1^2 + D_2^2 + ... + D_n^2)
dove ogni D_i è la distanza della coordinata avvolta nella dimensione i, uniformemente indipendente su [0, 0.5].
"Quindi stai guardando la distribuzione della norma euclidea di un vettore i cui componenti sono uniformi su [0, 0.5]," ha notato Andrés S. durante la nostra conversazione. "Potresti avere un insieme di misura 1/2 di tutte quelle possibilità..."...
Principali
Ranking
Preferiti
