Olen ollut utelias siitä, mitä tietoja LLM:t "unohtavat" RL:n aikana viime aikoina käytin aikaa tutkien esimerkkejä asioista, joissa mallit huononevat RL:n jälkeen Osoittautuu, että järkeilyn oppiminen tekee malleista parempia melkein kaikessa. Pelottava oivallus TBH