Сьогоднішній допис — це співпраця з моїм другом дитинства Андресом Сілвою :-) ------- Якщо ви кидаєте випадкову точку в одиничну клітинку, ймовірність того, що вона потрапить всередину вписаного кола, становить близько 78,5%. Якщо покласти одну в одиничний куб, є 52,4% шансів, що вона всередині вписаної сфери. До виміру 10 ця ймовірність знижується до 0,25%. До виміру 100 він фактично дорівнює нулю. Це і є «прокляття вимірності» — стандарт у будь-якому курсі машинного навчання, і тема довгої математичної літератури. Середня відстань між випадковими точками в коробці була визначена Роббінсом і розв'язана у 1978 році. Йоган Філіп створив повний дистрибутив для 3D. Ці проблеми добре відомі. Тут ми хочемо зробити дещо інше: систематично порівнювати гістограми відстаней у різних геометріях (евклідова, сферична, гіперболічна), топології (гіперкуб проти тора) і виміри — а потім запитати, що ці «сигнатури» можуть розкрити про реальні простори вкладення в нейронні мережі. Основна ідея: гістограма парних відстаней між випадковими точками — це геометричний відбиток пальця. Різні простори залишають різні сліди. Можливо, ви зможете використати це, щоб визначити, в якій геометрії ваші дані таємно живуть. Історія походження: Двоє Андресів заходять у бар у Койоакані... Ідеї в цьому дописі виникли з нашої розмови (так, нас обох звуть Андрес — bienvenidos a México). Суть: якщо ви з другом опиняєтесь у випадкових місцях у n-вимірному гіперкубі, то на якій відстані ви в середньому знаходитесь? І ще цікавіше, як виглядає розподіл можливих відстаней? «Справа в тому, — як сказав один із нас під час нашої розмови, — якщо взяти дві випадкові точки в просторі, як виглядає розподіл відстані? Я впевнений, ти вже думав про цю проблему?» — «Так, і я думав про вищі виміри.» Відповідь виявляється надзвичайно простою для одномірного випадку (лінійний відрізок): розподіл відстаней між двома рівномірними випадковими точками на [0,1] трикутний, пік на 0. Більшість пар розташовані близько одна до одної, і ймовірність бути рівно на 1 (максимум) дорівнює рівню нулю — це множина міри нуль. Але що відбувається, коли додаєш обгортку? Коли замість лінійного сегмента ви на колі? Трюк із Тором: Без втрати загальності Саме тут з'являється перше прекрасне прозріння. На відрізку [0,1] відстань між точками x і y дорівнює лише |x - y|. Але на колі (1-тора) можна рухатися в будь-якому напрямку. «Обгорнута» відстань дорівнює мінімум(|x - y|, 1 - |x - y|). Ключова ідея: на торі завжди можна припустити, що одна точка знаходиться в початку координат без втрати загальності. Чому? Оскільки тор однорідний — кожна точка виглядає як кожна інша точка. Тут немає ребер, отже немає кутів. Кожне місце, де ви ставите першу точку, — це «те саме місце». Якщо опустити дві випадкові точки на торі, завжди можна ментально перенести простір так, щоб одна точка була на нулі. Це означає, що розподіл відстаней повністю визначається розподілом відстані однієї рівномірної випадкової точки від нуля. На одномерному торі (колі) ця обгорнута координата рівномірна на [0, 0,5]. Вся задача чудово розкривається: у n-вимірному плоскому торі загальна відстань дорівнює: D = sqrt(D_1^2 + D_2^2 + ... + D_n^2) де кожна D_i — це обгорнута координатна відстань у розмірності i, незалежно однорідна на [0, 0,5]. «Отже, ви дивитеся на розподіл евклідової норми вектора, компоненти якого рівномірні на [0, 0.5]», — зазначив Андрес С. під час нашої розмови. "Ти міг би мати набір міри половини всіх цих можливостей..." ...