Vahvistusoppiminen (RL) on pitkään ollut hallitseva hienosäätömenetelmä, joka on tehostanut monia huippuluokan LLM:iä. Menetelmät, kuten PPO ja GRPO, tutkivat toiminta-avaruudessa. Mutta voimmeko sen sijaan tutkia suoraan parametriavaruudessa? Kyllä me siihen pystymme. Ehdotamme skaalautuvaa kehystä täyden parametrin hienosäätöön Evolution Strategies (ES) -ohjelman avulla. Ohittamalla gradientit ja optimoimalla suoraan parametriavaruudessa ES saavuttaa tarkemman, tehokkaamman ja vakaamman hienosäädön. Paperi: Koodi: