Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hipoteza Uniwersalnej Podprzestrzeni Wag
Nasze odkrycia oferują nowe spostrzeżenia dotyczące wewnętrznej organizacji informacji w głębokich sieciach i stawiają ważne pytania o możliwość odkrywania tych uniwersalnych podprzestrzeni bez potrzeby posiadania dużych zbiorów danych i zasobów obliczeniowych.
... poprzez przeprowadzanie spektralnych dekompozycji warstwowych i zachowywanie tylko wiodących kierunków głównych, można wydobyć dokładne przybliżenie tych uniwersalnych podprzestrzeni. Empirycznie, to zachowanie pojawia się szeroko: w w pełni dostosowanych modelach i adapterach opartych na LoRA, w modelach trenowanych od podstaw, zarówno w ustawieniach generatywnych, jak i dyskryminacyjnych, oraz w konfiguracjach multimodalnych. Co więcej, przybliżone podprzestrzenie generalizują do zadań spoza rozkładu, gdzie projekcja modeli i uczenie się tylko małego zestawu współczynników wystarcza do odzyskania silnej wydajności. Umożliwia to dostosowanie się do nowych zadań bez ponownego trenowania lub przechowywania pełnych wag, a także wspiera solidne uczenie wielozadaniowe, skalowalne dostosowywanie i zasadnicze łączenie modeli w ramach jednego zjednoczonego systemu.
Implikacje praktyczne są znaczące. Dzięki ponownemu wykorzystaniu wspólnego zestawu kierunków głównych warstwowych i uczeniu się tylko lekkich współczynników na zadanie, duże modele mogą być rozszerzane i serwowane z dramatycznie zmniejszonymi kosztami obliczeniowymi, pamięciowymi i inżynieryjnymi.
... możemy skutecznie recyklingować i zastępować dostępne modele wstępnie wytrenowane modelem uniwersalnej podprzestrzeni, w którym każda jednostka jest reprezentowana przez rzadki zestaw współczynników. W tej sekcji pokazujemy zestaw eksperymentów, w których wykorzystujemy uniwersalne podprzestrzenie do uczenia się nowych zadań, zamrażając komponenty i po prostu ucząc się współczynników za pomocą spadku gradientu. Stwierdzamy, że ponieważ uczymy się tylko współczynników, znacznie zmniejsza to liczbę parametrów wymaganych do trenowania nowych modeli. Ponadto, ponieważ te współczynniki są po prostu wartościami skalującymi liniowo, optymalizacja jest płynniejsza i szybsza.

Najlepsze
Ranking
Ulubione
