Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ciche uczenie cech w Transformerach
To jeden z najbardziej fascynujących artykułów, które przeczytałem w tym tygodniu.
Pozwól, że wyjaśnię:
Argumentuje, że krzywe strat mogą wprowadzać w błąd co do tego, czego model się uczy.
Domyślne podejście do monitorowania treningu sieci neuronowych opiera się na stracie jako głównym wskaźniku postępu. Jeśli strata jest płaska, nic się nie dzieje. Jeśli strata spada, uczenie się odbywa.
Ale to założenie nie sprawdza się w zadaniach algorytmicznych.
Te nowe badania trenowały Transformery na dziesięciu podstawowych zadaniach algorytmicznych i odkryły "ciche cechy": wewnętrzne reprezentacje, które rozwijają się, gdy strata wydaje się stagnacyjna.
Oni odkryli, że modele uczą się pośrednich kroków obliczeniowych na długo przed tym, jak te kroki poprawiają wydajność wyjścia. Bity przenoszenia w dodawaniu, członkostwo w kolejce w BFS, częściowe iloczyny w mnożeniu. Te cechy pojawiają się podczas przedłużających się plateau, a następnie nagle łączą się, aby rozwiązać zadanie.
Badacze zbadali wewnętrzne reprezentacje w arytmetyce binarnej (dodawanie, mnożenie), algorytmach grafowych (BFS, najkrótsza ścieżka, sortowanie topologiczne, MST) oraz optymalizacji sekwencji (maksymalny podciąg, wybór aktywności).
Sześć zadań wykazało wyraźne przejścia dwufazowe: przedłużona stagnacja, a następnie nagłe zyski wydajności.
Eksperymenty ablacjowe potwierdziły przyczynowość. Usunięcie cech przenoszenia z modelu dodawania 64-bitowego spowodowało spadek dokładności o 75,1%. Ablacja członkostwa w kolejce w BFS spowodowała spadek dokładności o 43,6%.
Zadania algorytmiczne wymagają współdziałania wielu podprogramów. Pojedyncze poprawne komponenty nie zmniejszają straty, dopóki wszystkie elementy się nie zgrupują. Modele gromadzą ukryte zdolności pod płaskimi krzywymi strat.
Wydaje się, że strata krzyżowej entropii jest niekompletną diagnozą. Znaczące wewnętrzne uczenie się może zachodzić, podczas gdy metryki wydają się stagnacyjne. To motywuje do bogatszych narzędzi monitorujących poza krzywymi strat.
🔖 (zapisz to)
Artykuł:

Najlepsze
Ranking
Ulubione

