Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vahvistusoppiminen (RL) on pitkään ollut hallitseva hienosäätömenetelmä, joka on tehostanut monia huippuluokan LLM:iä. Menetelmät, kuten PPO ja GRPO, tutkivat toiminta-avaruudessa. Mutta voimmeko sen sijaan tutkia suoraan parametriavaruudessa? Kyllä me siihen pystymme. Ehdotamme skaalautuvaa kehystä täyden parametrin hienosäätöön Evolution Strategies (ES) -ohjelman avulla.
Ohittamalla gradientit ja optimoimalla suoraan parametriavaruudessa ES saavuttaa tarkemman, tehokkaamman ja vakaamman hienosäädön.
Paperi:
Koodi:
Johtavat
Rankkaus
Suosikit
