Princip pokrytí: Jak předtrénink umožňuje post-trénink Nový preprint, kde se podíváme na mechanismy, jejichž prostřednictvím predikce next-token vytváří modely, které uspějí v navazujících úlohách. Odpověď zahrnuje metriku, kterou nazýváme "profil pokrytí", nikoli křížovou entropii.