Hørte på dette pluss Gavins AI-tankeinnlegg. Han virker veldig trygg på at lovene om skalering før trening holder, og jeg bare... Ikke så sikker? Argumentet er veldig fokusert på fremskritt innen compute-pushing før trening, men definisjonsmessig må det være tilsvarende økninger i data for å skalere, ikke sant? Siden vi alle kjenner til den berømte Ilya-linjen om forhåndstreningsdata, er spørsmålet mitt selvfølgelig: Hvor kommer disse dataene fra? Det virker som folk peker på ideen om at syntetiske data mates tilbake til fortreningen, men den ideen har aldri helt føltes riktig for meg. Jeg har hatt en intuitiv følelse av at en modell som lager egne data for forhåndstrening bør føre til et rotete ouroboros av et system som ikke kan gå videre. Det er læring i isolasjon, uten å bli eksponert for nye data fra forskjellige skapere. MEN, jeg har faktisk ikke lest noen artikler om fordelene eller begrensningene ved forhåndstreningsmodeller basert på selvgenererte synergetiske data. Er det noen andre som har denne tanken og/eller forskningen å vise til? Og jeg vil nevne dette spesielt for pre-training, ikke SFT, post-training osv.