Posting hari ini adalah kolaborasi dengan teman masa kecil saya Andrés Silva :-) ------- Jika Anda menjatuhkan titik acak ke dalam kotak satuan, ada sekitar 78,5% kemungkinan titik itu mendarat di dalam lingkaran bertulis. Jatuhkan satu ke dalam kubus unit, dan ada kemungkinan 52,4% itu berada di dalam bola bertulis. Dengan dimensi 10, probabilitas itu turun menjadi 0,25%. Dengan dimensi 100, secara efektif nol. Ini adalah "kutukan dimensi" - tarif standar dalam kursus pembelajaran mesin apa pun, dan subjek literatur matematika yang panjang. Jarak rata-rata antara titik acak dalam kotak diajukan oleh Robbins dan dipecahkan pada tahun 1978. Johan Philip memperoleh distribusi penuh untuk 3D. Masalah-masalah ini diinjak-injak dengan baik. Apa yang ingin kita lakukan di sini adalah sesuatu yang sedikit berbeda: secara sistematis membandingkan histogram jarak di berbagai geometri (Euclidean, bulat, hiperbolik), topologi (hiperkubus vs. torus), dan dimensi - dan kemudian tanyakan apa yang mungkin diungkapkan oleh "tanda tangan" ini tentang ruang penyematan dunia nyata dalam jaringan saraf. Ide intinya: histogram jarak berpasangan antara titik acak adalah sidik jari geometris. Spasi yang berbeda meninggalkan tanda yang berbeda. Anda mungkin dapat menggunakan ini untuk mendiagnosis geometri apa yang diam-diam tinggal di data Anda. Kisah Asal: Dua Andres Masuk ke Sebuah Bar di Coyoacán... Ide-ide dalam posting ini muncul dari percakapan antara kami berdua (ya, kami berdua bernama Andrés - bienvenidos a México). Pengaturannya: jika Anda dan seorang teman sama-sama dijatuhkan di lokasi acak dalam hiperkubus n-dimensi, seberapa jauh jarak Anda, rata-rata? Dan yang lebih menarik, seperti apa distribusi jarak yang mungkin? "Masalahnya adalah," seperti yang dikatakan salah satu dari kami selama diskusi kami, "jika Anda mengambil dua titik acak di ruang angkasa, seperti apa distribusi jaraknya? Saya yakin Anda pernah memikirkan masalah ini?" - "Ya, dan saya bertanya-tanya tentang dimensi yang lebih tinggi." Jawabannya ternyata sangat sederhana untuk kasus 1D (segmen garis): distribusi jarak antara dua titik acak seragam pada [0,1] adalah segitiga, memuncak pada 0. Sebagian besar pasangan berdekatan, dan probabilitas terpisah persis 1 (maksimum) persis nol - ini adalah satu set ukuran nol. Tapi apa yang terjadi ketika Anda menambahkan wraparound? Kapan alih-alih segmen garis, Anda berada di lingkaran? Trik Torus: Tanpa Kehilangan Keumuman Di sinilah wawasan indah pertama muncul. Pada segmen garis [0,1], jarak antara titik x dan y hanya |x - y|. Tetapi pada lingkaran (1-torus), Anda dapat pergi ke kedua arah. Jarak "terbungkus" adalah min(|x - y|, 1 - |x - y|). Ide Kunci: Pada torus, Anda selalu dapat berasumsi bahwa satu titik berada di asalnya tanpa kehilangan keumuman. Mengapa? Karena torus homogen - setiap titik terlihat seperti setiap titik lainnya. Tidak ada tepi, jadi tidak ada sudut. Setiap lokasi tempat Anda menempatkan titik pertama adalah "lokasi yang sama". Jika Anda menjatuhkan dua titik acak pada torus, Anda selalu dapat menerjemahkan ruang secara mental sehingga satu titik berada di nol. Ini berarti distribusi jarak sepenuhnya ditentukan oleh distribusi jarak titik acak seragam tunggal dari nol. Pada torus (lingkaran) 1D, koordinat yang dibungkus ini seragam pada [0, 0.5]. Seluruh faktor masalah dengan indah: dalam torus datar n-dimensi, jarak totalnya adalah: D = sqrt(D_1^2 + D_2^2 + ... + D_n^2) di mana setiap D_i adalah jarak koordinat yang dibungkus dalam dimensi i, secara independen seragam pada [0, 0,5]. "Jadi Anda melihat distribusi norma Euclidean dari vektor yang komponennya seragam pada [0, 0,5]," kata Andrés S. selama percakapan kami. "Anda bisa memiliki satu set ukuran 1/2 dari semua kemungkinan itu ..." ...