Kompromis mezi biasem a variancí má chybějící detail! Mnoho inženýrů strojového učení o tom neví. Uvažujme přizpůsobení polynomiálního regresního modelu na nějakou fiktivní datovou sadu, například y=sin(x) + šum. Jak je ukázáno na prvním grafu na obrázku, když zvyšujeme stupeň (m): - Ztráta tréninku klesne na nulu. - Ztráta při testování (nebo validaci) se bude snižovat a poté zvyšovat. Ale všimněte si, co se děje, když pokračujeme ve zvyšování stupně (m): ↳ Ztráta v testu opět klesá (znázorněno na druhém grafu) Tento jev se nazývá "jev dvojitého sestupu" a běžně se pozoruje v modelech hlubokého učení. Je to protiintuitivní, protože ukazuje, že zvýšení složitosti modelu může zlepšit výkon generalizace. Pokud vím, je to stále otevřená otázka. Není zcela jasné, proč neuronové sítě vykazují toto chování. Existují však některé teorie týkající se regularizace, například tato: Může to být tak, že model aplikuje nějakou formu implicitní regularizace. Díky tomu se může přesně zaměřit na vhodný počet parametrů pro zobecnění. Ve skutečnosti si to můžete vyzkoušet sami: - Vytvořit malou fiktivní datovou sadu velikosti n. - Natrénujte polynomiální regresi stupně m, začínající od 1 až po hodnotu větší než n. - Vykreslit ztrátu testu a trénovací ztrátu pro každý m. 👉 Předám vám slovo: Slyšeli jste už někdy o dvojitém sestupu?
Tady je přesný časový razítko, kdy o tom Ilya Sutskever mluví v podcastu Lexe Fridmana:
6,05K