Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bài viết hôm nay là một sự hợp tác với người bạn thời thơ ấu của tôi, Andrés Silva :-)
-------
Nếu bạn thả một điểm ngẫu nhiên vào một hình vuông đơn vị, có khoảng 78,5% khả năng nó sẽ nằm trong hình tròn nội tiếp. Thả một điểm vào một hình khối đơn vị, và có 52,4% khả năng nó nằm trong hình cầu nội tiếp. Đến chiều không gian thứ 10, xác suất đó giảm xuống còn 0,25%. Đến chiều không gian thứ 100, nó gần như bằng không.
Đây là "lời nguyền của chiều không gian" - một chủ đề quen thuộc trong bất kỳ khóa học học máy nào, và là chủ đề của một tài liệu toán học dài. Khoảng cách trung bình giữa các điểm ngẫu nhiên trong một hộp đã được Robbins đặt ra và giải quyết vào năm 1978. Johan Philip đã suy ra phân phối đầy đủ cho 3D. Những vấn đề này đã được nghiên cứu nhiều.
Điều chúng tôi muốn làm ở đây là một điều gì đó hơi khác: so sánh hệ thống các biểu đồ khoảng cách giữa các hình học khác nhau (Euclid, hình cầu, siêu phẳng), các hình thái (hình khối siêu vs. hình torus), và các chiều không gian - và sau đó hỏi những "dấu hiệu" này có thể tiết lộ điều gì về các không gian nhúng trong thế giới thực trong các mạng nơ-ron.
Ý tưởng cốt lõi: biểu đồ khoảng cách giữa các điểm ngẫu nhiên là một dấu vân tay hình học. Các không gian khác nhau để lại những dấu ấn khác nhau. Bạn có thể sử dụng điều này để chẩn đoán hình học mà dữ liệu của bạn đang sống bí mật.
Câu chuyện nguồn gốc: Hai Andreses bước vào một quán bar ở Coyoacán...
Những ý tưởng trong bài viết này xuất phát từ một cuộc trò chuyện giữa chúng tôi (vâng, cả hai chúng tôi đều tên là Andrés - bienvenidos a México). Bối cảnh: nếu bạn và một người bạn được thả ở những vị trí ngẫu nhiên trong một hình khối siêu n chiều, bạn cách xa nhau bao xa, trung bình? Và thú vị hơn, phân phối của các khoảng cách có thể trông như thế nào?
"Vấn đề là," như một trong chúng tôi đã nói trong cuộc thảo luận, "nếu bạn lấy hai điểm ngẫu nhiên trong không gian, phân phối khoảng cách trông như thế nào? Tôi chắc rằng bạn đã nghĩ về vấn đề này?" - "vâng, và tôi đã tự hỏi về các chiều không gian cao hơn."
Câu trả lời hóa ra là rất đơn giản cho trường hợp 1D (một đoạn thẳng): phân phối khoảng cách giữa hai điểm ngẫu nhiên đồng nhất trên [0,1] là hình tam giác, cao nhất tại 0. Hầu hết các cặp gần nhau, và xác suất để cách nhau chính xác 1 (tối đa) là bằng không - đó là một tập hợp có đo bằng không.
Nhưng điều gì xảy ra khi bạn thêm vòng quanh? Khi thay vì một đoạn thẳng, bạn ở trên một vòng tròn?
Mẹo Torus: Không mất tính tổng quát
Đây là nơi cái nhìn đẹp đầu tiên xuất hiện. Trên một đoạn thẳng [0,1], khoảng cách giữa các điểm x và y chỉ là |x - y|. Nhưng trên một vòng tròn (một torus 1), bạn có thể đi theo cả hai hướng. Khoảng cách "quấn" là min(|x - y|, 1 - |x - y|).
Ý tưởng chính: Trên một torus, bạn luôn có thể giả định một điểm ở gốc mà không mất tính tổng quát.
Tại sao? Bởi vì torus là đồng nhất - mọi điểm trông giống như mọi điểm khác. Không có cạnh, vì vậy không có góc. Mọi vị trí mà bạn đặt điểm đầu tiên đều là "cùng một vị trí". Nếu bạn thả hai điểm ngẫu nhiên trên một torus, bạn luôn có thể tưởng tượng dịch chuyển không gian sao cho một điểm nằm ở không. Điều này có nghĩa là phân phối khoảng cách hoàn toàn được xác định bởi phân phối khoảng cách của một điểm ngẫu nhiên đồng nhất từ không.
Trên torus 1D (vòng tròn), tọa độ quấn này đồng nhất trên [0, 0.5]. Toàn bộ vấn đề phân tích một cách đẹp đẽ: trong một torus phẳng n chiều, tổng khoảng cách là:
D = sqrt(D_1^2 + D_2^2 + ... + D_n^2)
trong đó mỗi D_i là khoảng cách tọa độ quấn trong chiều i, đồng nhất độc lập trên [0, 0.5].
"Vậy bạn đang nhìn vào phân phối của chuẩn Euclid của một vector mà các thành phần của nó đồng nhất trên [0, 0.5]," Andrés S. đã lưu ý trong cuộc trò chuyện của chúng tôi. "Bạn có thể có một tập hợp có đo 1/2 của tất cả những khả năng đó..."
...
Hàng đầu
Thứ hạng
Yêu thích
