Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
"En av de veldig forvirrende tingene med modellene akkurat nå: hvordan skal man forene det faktum at de gjør det så bra på evalueringene.
Og du ser på vurderingene og tenker, 'Det er ganske harde vurderinger.'
Men den økonomiske effekten ser ut til å være dramatisk bak.
Det finnes [en mulig] forklaring. Da folk gjorde fortrening, ble spørsmålet om hvilke data man skulle trene på besvart, fordi det svaret var alt. Så du trenger ikke å tenke på om det skal være disse dataene eller de dataene.
Når folk gjør RL-trening, sier de: 'Ok, vi vil ha denne typen RL-trening for dette og den typen RL-trening for det der.'
Du sier: 'Hei, jeg vil gjerne at modellen vår gjør det veldig bra når vi slipper den. Jeg vil at evalueringene skal se flotte ut. Hva ville vært RL-trening som kunne hjelpe med denne oppgaven?'
Hvis du kombinerer dette med en generalisering om at modellene faktisk er utilstrekkelige, har det potensial til å forklare mye av det vi ser, denne koblingen mellom evalueringsytelse og faktisk virkelighetsmessig ytelse."
Topp
Rangering
Favoritter

