Dekningsprinsippet: Hvordan fortrening muliggjør ettertrening Nytt preprint der vi ser på mekanismene som prediksjon av neste token produserer modeller som lykkes med nedstrømsoppgaver. Svaret involverer en beregning vi kaller "dekningsprofilen", ikke kryssentropi.