Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#PaperADay 8
Melampaui Rata-rata Gradien dalam Pengoptimalan Paralel: Peningkatan Ketahanan melalui Pemfilteran Perjanjian Gradien
Direkomendasikan oleh @FrancoisChauba1 setelah makalah kemarin.
Mengusulkan Gradient Agreement Filtering (GAF), di mana gradien independen yang memiliki jarak kosinus besar di antara keduanya disaring alih-alih dirata-ratakan. Implikasinya adalah bahwa beberapa gradien yang dihitung yang dapat membantu kehilangan pelatihan secara aktif berbahaya bagi generalisasi, dan harus dibuang alih-alih digunakan.
Ini disajikan dalam hal batch mikro dalam pelatihan terdistribusi multi-GPU, tetapi ide yang sama harus berlaku untuk partisi batch pelatihan apa pun.
Saya secara kebetulan hanya mencoba sesuatu yang serupa – memotong gradien dari sampel buffer pemutaran ulang IID sehingga tidak bertentangan dengan gradien dari sampel pengalaman online saat ini. Ini belum menunjukkan hasil positif, tetapi saya memiliki beberapa sudut lagi untuk dicoba.
Pengamatan yang memotivasi teori ini adalah bahwa jika Anda melatih pengklasifikasi gambar pada noise dan label acak yang sepenuhnya, itu akan memiliki akurasi latihan 100% dan hanya akurasi validasi peluang acak, jelas terlalu sesuai dengan data pelatihan. Mereka mencatat bahwa jika Anda melihat kesamaan kosinus antara gradien minibatch pada model overfit ini, itu selalu di atas 0,99, atau pada dasarnya ortogonal. Jika gradien ortogonal adalah tanda overfitting yang dapat diandalkan, mungkin Anda dapat melewatkan minbatch dengan gradien ortogonal dan mengurangi overfitting / meningkatkan generalisasi.
Untuk kasus paling sederhana dari dua microbatch, ini bermuara pada mempertahankan atau menolak keduanya berdasarkan kesamaan kosinus, tetapi dengan lebih banyak microbatch, mereka mengusulkan untuk membandingkan semua microbatch dengan yang pertama, dan rata-rata bersama-sama semua yang lulus tes.
Beberapa komentar tentang ukuran batch bertentangan dengan tesis di #PaperADay 5 yang mengklaim kegagalan penskalaan ukuran batch disebabkan oleh tidak menyesuaikan beta2, tetapi pembenaran tidak terlalu penting seperti kinerja empiris. Saya mungkin akan mencoba sesuatu seperti ini dalam beberapa hari ke depan di basis kode RL kami.
Teratas
Peringkat
Favorit
