#PaperADay 10 LeJEPA: Pembelajaran Pengawasan Mandiri yang Dapat Dibuktikan dan Dapat Diskalakan Tanpa Heuristik Komentar di #PaperADay 3 merekomendasikan makalah ini sebagai kertas JEPA canggih, dan itu terlihat jauh lebih baik! Mereka mengakui bahwa banyak penelitian JEPA sebelumnya bersifat ad-hoc dan penuh dengan heuristik, tetapi di sini mereka membuat klaim teoretis yang kuat tentang optimalitas dan memberikan bukti (yang tidak saya baca). Klaim pertama adalah bahwa gaussian isotropik adalah distribusi penyematan optimal yang unik untuk pemeriksaan linier dan nonlinier, meminimalkan risiko terburuk di seluruh tugas hilir. Saya akan mengambilnya dengan iman hanya dengan "terdengar bagus bagi saya", tetapi mereka membahasnya dengan detail dan contoh. Sebenarnya mendapatkan gaussian isotropik dalam dimensi tinggi lebih mudah diucapkan daripada dilakukan. Mereka menyajikan Sketched Isotropic Gaussian Regularization (SIGReg) sebagai fungsi kerugian yang berperilaku baik untuk mencapai ini setelah menganalisis sejumlah tes statistik yang berbeda, dan mereka mengklaim itu mengalahkan kutukan dimensi dengan skalabilitas linier. Kerugian terakhir hanyalah faktor campuran untuk menimbang kerugian prediksi JEPA terhadap kehilangan isotropi SIGReg. Ini adalah satu-satunya hyperparameter yang dapat disetel untuk LeJEPA. Meskipun P di JEPA, mereka tidak menggunakan jaringan prediktor di sini, mereka hanya secara langsung membandingkan penyematan tampilan untuk kerugian JEPA. Jaringan prediktor masih bisa berguna untuk urutan video, terutama ketika dikondisikan dengan informasi aksi untuk agen/robot. Setiap gambar pelatihan ditambah untuk menghasilkan 2 tampilan global dan 6 tampilan lokal dengan skala spasial yang berbeda tetapi serangkaian warna dan transformasi geometris yang sama. Kerugian adalah rata-rata UMK antara rata-rata penyematan tampilan global dan masing-masing penyematan tampilan lokal. Saya tidak memiliki perasaan yang baik untuk tradeoff dalam transformasi pandangan mereka, yang masih tampak sangat banyak di ruang ad-hoc, tetapi mereka akan menentukan sifat dari apa yang disaring dari representasi. Mempelajari apa yang tidak penting sangat penting, tetapi spesifikasi "penting" hanya tersirat dalam transformasi pandangan. LeJEPA sendiri independen dari arsitektur – apa pun yang mencerna sekumpulan sampel dari kumpulan data menjadi vektor dapat digunakan. Trafo penglihatan, MLP, ConvNets, dll. Augmentasi khusus untuk tampilan akan spesifik modalitas input, tetapi algoritme LeJEPA dapat bekerja pada audio, gambar, video, atau hal lainnya. Mereka menunjukkan bahwa kerugian LeJEPA pada model pondasi besar sangat menunjukkan kinerja tugas hilir, baik secara langsung, maupun dengan heuristik untuk meningkatkan kekuatan prediksi kerugian lebih jauh. Mereka juga menunjukkan bahwa itu dapat digunakan untuk melatih dari awal pada kumpulan data kecil dengan sedikitnya 1000 sampel dan mencapai hasil yang lebih baik daripada menyelidiki model fondasi umum konvensional. Saya senang melihat contoh blok kode di kertas alih-alih pseudocode yang sarat dengan bahasa Yunani, serta repositori github. Lampiran D memiliki detail menarik tentang menghasilkan cakupan hipersfer satuan yang baik dengan sampel perbedaan rendah dengan mengubah urutan Sobol, tetapi ini hanya untuk analisis teoretis mereka, dan mereka menunjukkan bahwa Anda lebih baik membuat hipervektor acak baru setiap batch, dengan bahkan 16 vektor acak mengungguli satu set tetap ribuan. Beberapa pertanyaan:...