Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dnešní příspěvek je výsledkem spolupráce s mým kamarádem z dětství Andrésem Silvou :-)
-------
Pokud náhodně vložíte bod do jednotkového čtverce, je asi 78,5% šance, že dopadne uvnitř vyrytého kruhu. Hodíš jednu do jednotkové krychle a je 52,4% šance, že je uvnitř vyryté koule. Podle dimenze 10 tato pravděpodobnost klesá na 0,25 %. Podle dimenze 100 je to fakticky nula.
To je "prokletí dimenzionality" – standardní předmět v každém kurzu strojového učení a téma rozsáhlé matematické literatury. Průměrnou vzdálenost mezi náhodnými body v krabici určil Robbins a vyřešil ji v roce 1978. Johan Philip odvodil plné rozdělení pro 3D. Tyto problémy jsou známé.
Chceme zde udělat něco trochu jiného: systematicky porovnat histogramy vzdáleností napříč různými geometriemi (eukleidovskými, kulovitými, hyperbolickými), topologiemi (hyperkrychle vs. torus) a dimenzemi – a pak se zeptat, co tyto "signatury" mohou odhalit o reálných prostorech vnoření do neuronových sítí.
Základní myšlenka: histogram párových vzdáleností mezi náhodnými body je geometrický otisk prstu. Různá místa zanechávají různé stopy. Možná byste to mohli použít k diagnostice, ve které geometrii vaše data tajně žijí.
Příběh původu: Dva Andreseové vejdou do baru v Coyoacánu...
Myšlenky v tomto příspěvku vznikly z rozhovoru mezi námi dvěma (ano, oba se jmenujeme Andrés – bienvenidos a México). Nastavení: pokud vy i váš kamarád skončíte na náhodných místech v n-dimenzionální hyperkrychle, jak daleko jste v průměru od sebe? A co je ještě zajímavější, jak vypadá rozložení možných vzdáleností?
"Věc je taková," jak to jeden z nás řekl během diskuse, "když vezmete dva náhodné body v prostoru, jak vypadá rozložení vzdáleností? Jsem si jistý, že jsi o tom problému přemýšlel?" - "Ano, a zajímalo mě i o vyšších dimenzích."
Odpověď se ukazuje být krásně jednoduchá pro 1D případ (úsečinka): rozdělení vzdáleností mezi dvěma uniformními náhodnými body na [0,1] je trojúhelníkové, s vrcholem 0. Většina párů je blízko u sebe a pravděpodobnost, že jsou od sebe přesně 1 (maximum), je přesně nulová – je to množina míry nula.
Ale co se stane, když přidáte wraparound? Když místo úsečky jsi na kruhu?
Trik s torusem: Bez ztráty obecnosti
Tady se objevuje první krásný postřeh. Na úsečce [0,1] je vzdálenost mezi body x a y jednoduše |x - y|. Ale na kruhu (1-torus) můžete jít oběma směry. "Obalená" vzdálenost je min(|x - y|, 1 - |x - y|).
Klíčová myšlenka: Na toru můžete vždy předpokládat, že jeden bod je v počátku, aniž byste ztratili obecnost.
Proč? Protože torus je homogenní – každý bod vypadá jako každý jiný bod. Nejsou tam žádné hrany, takže nejsou žádné rohy. Každé místo, kam umístíte první bod, je "stejné místo". Pokud na torus padnou dva náhodné body, můžete si vždy mentálně přeložit prostor tak, že jeden bod je nula. To znamená, že rozložení vzdáleností je zcela určeno rozdělením vzdálenosti jednoho uniformního náhodného bodu od nuly.
Na 1D toru (kruhu) je tato zabalená souřadnice uniformní na [0, 0,5]. Celý problém se krásně rozhoduje: v n-rozměrném plochém toru je celková vzdálenost:
D = sqrt(D_1^2 + D_2^2 + ... + D_n^2)
kde každý D_i je zabalená souřadnicová vzdálenost v dimenzi i, nezávisle uniformní na [0, 0,5].
"Takže se díváte na rozdělení eukleidovské normy vektoru, jehož složky jsou uniformní na [0, 0,5]," poznamenal Andrés S. během našeho rozhovoru. "Mohl bys mít sadu takt 1/2 všech těch možností..."
...
Top
Hodnocení
Oblíbené
