Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Każdy model bazowy, z którego kiedykolwiek korzystałeś, ma ten sam błąd. Właśnie został naprawiony.
Od 2015 roku każda głęboka sieć była budowana w ten sam sposób: każda warstwa wykonuje jakieś obliczenia, dodaje swój wynik do bieżącej sumy i przekazuje go dalej.
Proste. Ale jest problem, po 100. warstwie sygnał z jakiejkolwiek pojedynczej warstwy jest zakopany pod sumą wszystkiego innego.
Każda nowa warstwa ma coraz mniejsze znaczenie.
Nikt tego nie naprawił, ponieważ działało wystarczająco dobrze.
Moonshot AI właśnie to zmieniło. Ich nowa metoda, Attention Residuals, pozwala każdej warstwie spojrzeć wstecz na wszystkie poprzednie warstwy i wybrać te, które naprawdę mają znaczenie w danym momencie.
Zamiast ślepej bieżącej sumy, otrzymujesz selektywne pobieranie.
Analogicznie: wyobraź sobie pisanie eseju, w którym każdy szkic automatycznie łączy się w jeden dokument. Po 50. szkicu twoje najnowsze poprawki są niewidoczne.
AttnRes pozwala ci zachować każdy szkic oddzielnie i korzystać z tych, które potrzebujesz.
Co to naprawia:
1. Głębsze warstwy nie są już zagłuszane
2. Trening staje się bardziej stabilny w całej sieci
3. Model wykorzystuje swoją głębokość bardziej efektywnie
Aby uczynić to praktycznym na dużą skalę, grupują warstwy w bloki i zwracają uwagę na podsumowania bloków zamiast na każdą pojedynczą warstwę.
Obciążenie przy wnioskowaniu: mniej niż 2%.
Rezultat:
25% mniej obliczeń, aby osiągnąć tę samą wydajność. Testowane na modelu o 48 miliardach parametrów. Działa w różnych rozmiarach....
Najlepsze
Ranking
Ulubione
