Har två GPU:er och två SFT-körningar samtidigt med @PrimeIntellect Idén är att fixa steg samtidigt som man varierar antalet exempel och sedan testa mot en hållen testmängd för att se hur indatadiversitet hjälper till att generalisera för en enkel miljö verifierare, här kommer jag~