Önyargı-varyans takasında eksik bir detay var! Çok az makine öğrenimi mühendisi bunu biliyor. Bir polinom regresyon modelini sahte bir veri setine uyarlayın, örneğin y=sin(x) + gürültü. Görseldeki ilk grafikte gösterildiği gibi, dereceyi (m) artırdıkça: - Eğitim kaybı sıfıra düşecek. - Test (veya doğrulama) kaybı azalır ve sonra artar. Ama dereceyi (m) artırmaya devam ettikçe ne olduğunu fark edin: ↳ Test kaybı tekrar azalıyor (ikinci grafikte gösterilmiştir) Buna "çift iniş olgusu" denir ve derin öğrenme modellerinde yaygın olarak gözlemlenir. Modelin karmaşıklığının artırılmasının genelleştirme performansını artırabileceğini gösterdiği için mantıksızdır. Bildiğim kadarıyla, bu hâlâ açık bir soru. Sinir ağlarının neden bu davranışı sergilediği tam olarak net değil. Ancak düzenleme üzerine bazı teoriler var, örneğin şöyle: Modelin örtük bir düzenleme uygulaması olabilir. Sonuç olarak, genelleme için uygun sayıda parametreye tam olarak odaklanabilir. Aslında, kendiniz de deneyebilirsiniz: - N boyutunda küçük bir sahte veri seti oluşturun. - 1'den n'den büyük bir değere kadar m dereceli polinom regresyonunu eğitmek. - Her m için test kaybı ve eğitim kaybını çizin. 👉 Size geçelim: Çift inişi daha önce duymuş muydunuz?
İşte Ilya Sutskever'in Lex Fridman'ın podcastinde bahsettiği tam zaman damgası:
9,69K