Nytt @Scale_AI papir! Synderen bak belønningshacking? Vi sporer det til feilspesifikasjon i hale med høy belønning. Vår løsning: rubrikkbaserte belønninger for å skille «utmerkede» svar fra «flott». Resultatet: Mindre hacking, sterkere ettertrening!