Învățarea prin întărire (RL) a fost mult timp metoda dominantă de reglare fină, alimentând multe LLM-uri de ultimă generație. Metode precum PPO și GRPO explorează în spațiul de acțiune. Dar putem explora direct în spațiul parametrilor? Da, putem. Propunem un cadru scalabil pentru reglarea fină a parametrilor completi folosind strategii de evoluție (ES). Prin sărirea pantelor și optimizarea directă în spațiul parametrilor, ES realizează o reglare fină mai precisă, mai eficientă și mai stabilă. Hârtie: Cod: