Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Stanford-forskere har utviklet en ny prompting-teknikk!
Ved å legge til ~20 ord i en prompt, gjør det:
- øker LLMs kreativitet med 1,6-2 ganger
- øker menneskevurdert mangfold med 25,7 %
- slår finjustert modell uten noen omtrening
- gjenoppretter 66,8 % av LLM-ens tapte kreativitet etter justering
Justeringsmetoder etter trening, som RLHF, er designet for å gjøre LLM-er nyttige og trygge.
Disse metodene forårsaker imidlertid utilsiktet et betydelig fall i utgangsdiversitet (kalt moduskollaps).
Når en LLM kollapser til en modus, begynner den å favorisere et smalt sett av forutsigbare eller stereotype responser fremfor andre utganger.
Dette skjer fordi de menneskelige preferansedataene som brukes til å trene LLM-en har en skjult svakhet kalt typikalitetsbias.
Slik skjer dette:
- Notatører vurderer ulike svar fra en LLM, og senere trenes LLM-en ved hjelp av en belønningsmodell for å etterligne disse menneskelige preferansene.
- Likevel foretrekker annotatorer naturlig nok svar som er mer kjente, lette å lese og forutsigbare. Dette er typikalitetsbiasen.
Så selv om et nytt, kreativt svar er like bra, heller menneskets preferanse ofte mot det vanlige.
På grunn av dette øker belønningsmodellen responser som den opprinnelige (forhåndsjusterte) modellen allerede anså som sannsynlige.
Dette skjerper LLM-ens sannsynlighetsfordeling aggressivt, og kollapser modellens kreative output til ett eller to dominerende, svært forutsigbare svar.
Når det er sagt, er det ikke en irreversibel effekt, og LLM har fortsatt to personligheter etter justering:
- Den opprinnelige modellen som lærte de rike mulighetene under fortreningen.
- Den sikkerhetsfokuserte, postjusterte modellen....

Topp
Rangering
Favoritter

