Poslouchal jsem tohle a také Gavinův příspěvek o AI. Zdá se, že je velmi sebejistý v předškolení zákonů o škálování a já prostě... Nejsi si jistý? Argument se velmi zaměřuje na pokroky v oblasti výpočetního tlačení před trénováním, ale definice je potřeba odpovídající nárůst dat, aby bylo možné škálovat, že? Protože všichni známe slavnou Ilyovu větu o předtrénovacích datech, moje otázka je samozřejmě, odkud tato data pocházejí? Zdá se, že lidé poukazují na myšlenku, že syntetická data jsou vracena zpět do předškolení, ale ta myšlenka mi nikdy moc neseděla. Měl jsem intuitivní pocit, že model, který vytváří vlastní data pro předtrénování, by měl vést k chaotickému ouroborosu, který není schopen postupovat dál. Je to učení izolovaně, bez kontaktu s novými daty od různých tvůrců. ALE, ve skutečnosti jsem nečetl žádné články o výhodách nebo omezeních předtrénovacích modelů na samogenerovaných synergických datech. Má někdo podobnou myšlenku a/nebo výzkum, na který by mohl poukázat? A to musím poznamenat konkrétně pro předškolení, ne pro SFT, po výcviku atd.