Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Naukowcy z Uniwersytetu Stanforda opracowali nową technikę podpowiadania!
Dodając ~20 słów do podpowiedzi, uzyskuje się:
- zwiększenie kreatywności LLM o 1,6-2x
- wzrost różnorodności ocenianej przez ludzi o 25,7%
- przewagę nad modelem dostosowanym bez jakiegokolwiek ponownego szkolenia
- przywrócenie 66,8% utraconej kreatywności LLM po dostosowaniu
Metody dostosowywania po szkoleniu, takie jak RLHF, mają na celu uczynienie LLM pomocnymi i bezpiecznymi.
Jednak te metody niezamierzenie powodują znaczny spadek różnorodności wyników (nazywany kolapsowaniem trybu).
Kiedy LLM zapada w tryb, zaczyna faworyzować wąski zestaw przewidywalnych lub stereotypowych odpowiedzi kosztem innych wyników.
Dzieje się tak, ponieważ dane preferencji ludzkich używane do szkolenia LLM mają ukrytą wadę zwaną uprzedzeniem typowości.
Oto jak to się dzieje:
- Anotatorzy oceniają różne odpowiedzi z LLM, a później LLM jest szkolony przy użyciu modelu nagród, aby naśladować te ludzkie preferencje.
- Jednak anotatorzy naturalnie skłaniają się ku odpowiedziom, które są bardziej znajome, łatwe do przeczytania i przewidywalne. To jest uprzedzenie typowości.
Więc nawet jeśli nowa, kreatywna odpowiedź jest równie dobra, preferencje ludzi często skłaniają się ku tej powszechnej.
Z tego powodu model nagród wzmacnia odpowiedzi, które oryginalny (przed dostosowaniem) model już uznawał za prawdopodobne.
To agresywnie zaostrza rozkład prawdopodobieństwa LLM, kolapsując kreatywną produkcję modelu do jednej lub dwóch dominujących, wysoce przewidywalnych odpowiedzi.
Mimo to, nie jest to efekt nieodwracalny, a LLM wciąż ma dwie osobowości po dostosowaniu:
- Oryginalny model, który nauczył się bogatych możliwości podczas wstępnego szkolenia.
- Model skoncentrowany na bezpieczeństwie, po dostosowaniu....

Najlepsze
Ranking
Ulubione

