Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 10
LeJEPA: Học Tự Giám Sát Có Thể Chứng Minh và Mở Rộng Mà Không Cần Các Heuristic
Các bình luận trên #PaperADay 3 đã đề xuất bài báo này như là bài báo JEPA tiên tiến nhất, và nó thực sự trông tốt hơn nhiều!
Họ thừa nhận rằng nhiều nghiên cứu JEPA trước đây là ngẫu nhiên và đầy các heuristic, nhưng ở đây họ đưa ra những tuyên bố lý thuyết mạnh mẽ về tính tối ưu và cung cấp các chứng minh (mà tôi đã không đọc).
Tuyên bố đầu tiên là phân phối nhúng gaussian đồng nhất là phân phối nhúng tối ưu duy nhất cho cả việc thăm dò tuyến tính và phi tuyến, tối thiểu hóa rủi ro tồi tệ nhất trên các nhiệm vụ hạ nguồn. Tôi đã có thể chấp nhận điều đó chỉ với một câu "nghe có vẻ tốt với tôi", nhưng họ đã đi vào chi tiết và ví dụ.
Thực sự có được một gaussian đồng nhất trong các chiều cao thì dễ nói hơn làm. Họ trình bày Quy Tắc Điều Chỉnh Gaussian Đồng Nhất (SIGReg) như một hàm mất mát hoạt động tốt để đạt được điều này sau khi phân tích một số bài kiểm tra thống kê khác nhau, và họ tuyên bố rằng nó vượt qua lời nguyền của chiều không gian với khả năng mở rộng tuyến tính.
Hàm mất mát cuối cùng chỉ là một yếu tố trộn để cân nhắc giữa hàm mất mát dự đoán JEPA và hàm mất mát đồng nhất SIGReg. Đây là một siêu tham số có thể điều chỉnh cho LeJEPA.
Mặc dù có chữ P trong JEPA, họ không sử dụng mạng dự đoán ở đây, họ chỉ so sánh trực tiếp các nhúng của các góc nhìn cho hàm mất mát JEPA. Mạng dự đoán vẫn có thể hữu ích cho các chuỗi video, đặc biệt khi được điều kiện hóa với thông tin hành động cho các tác nhân / robot.
Mỗi hình ảnh huấn luyện được tăng cường để tạo ra 2 góc nhìn toàn cầu và 6 góc nhìn cục bộ với các tỷ lệ không gian khác nhau nhưng cùng một tập hợp các biến đổi màu sắc và hình học. Hàm mất mát là trung bình MSE giữa trung bình của các nhúng góc nhìn toàn cầu và mỗi nhúng góc nhìn cục bộ.
Tôi không có cảm giác tốt về các sự đánh đổi trong các biến đổi góc nhìn của họ, mà vẫn có vẻ rất ngẫu nhiên, nhưng chúng sẽ xác định bản chất của những gì bị lọc ra khỏi đại diện. Học những gì không quan trọng là rất quan trọng, nhưng việc xác định "quan trọng" chỉ ngầm hiểu trong các biến đổi góc nhìn.
LeJEPA tự nó là độc lập với kiến trúc – bất cứ thứ gì tiêu hóa một lô mẫu từ một tập dữ liệu thành các vector đều có thể được sử dụng. Các transformer thị giác, MLP, ConvNets, v.v. Các biến đổi cụ thể cho các góc nhìn sẽ phụ thuộc vào phương thức đầu vào, nhưng thuật toán LeJEPA có thể hoạt động trên âm thanh, hình ảnh, video hoặc các thứ khác.
Họ cho thấy rằng hàm mất mát LeJEPA trên một mô hình nền tảng lớn rất chỉ ra hiệu suất nhiệm vụ hạ nguồn, cả trực tiếp và với một heuristic để cải thiện sức mạnh dự đoán của hàm mất mát xa hơn.
Họ cũng cho thấy rằng nó có thể được sử dụng để huấn luyện từ đầu trên các tập dữ liệu nhỏ với chỉ 1000 mẫu và đạt được kết quả tốt hơn so với việc thăm dò một mô hình nền tảng tổng quát thông thường.
Tôi rất vui khi thấy các khối mã mẫu trong bài báo thay vì mã giả đầy chữ Hy Lạp, cũng như một kho github.
Phụ lục D có những chi tiết thú vị về việc tạo ra độ bao phủ tốt của các hình cầu đơn vị với các mẫu sai số thấp bằng cách biến đổi các chuỗi Sobol, nhưng điều này chỉ dành cho phân tích lý thuyết của họ, và họ cho thấy bạn sẽ tốt hơn nếu chỉ tạo ra các hypervector ngẫu nhiên mới mỗi lô, với thậm chí 16 vector ngẫu nhiên vượt trội hơn một tập cố định hàng nghìn.
...
Hàng đầu
Thứ hạng
Yêu thích
