Denne NVIDIA-artikkelen knuste hjernen min. Alle snakker stadig om å skalere transformatorer med større klynger og smartere optimalisatorer... i mellomtiden viste NVIDIA og Oxford nettopp at man kan trene milliardparametermodeller ved hjelp av evolusjonsstrategier, en metode de fleste avfeide som gammel. Trikset er et nytt system kalt EGGROLL, og det snur hele kostnadsmodellen til ES. Normalt dør ES i stor skala fordi du må generere full-rank perturbasjonsmatriser for hvert populasjonsmedlem. For milliardparametermodeller betyr det vanvittig minnebevegelse og latterlig beregning. Disse løste det ved å generere lavrangs forstyrrelser ved å bruke to tynne matriser A og B og la ABT fungere som oppdatering. Befolkningsgjennomsnittet oppfører seg da som en full-rank-oppdatering uten å betale full rank-pris. Resultatet? De kjører evolusjonsstrategier med populasjonsstørrelser i hundretusener, en rekke tidligere arbeid ikke kunne nå fordi alt smeltet under minnepress. Nå er gjennomstrømning i praksis like rask som batch-inferens. Det er uhørt for noen gradientfri metode. Matematikken stemmer også. Low-rank-tilnærmingen konvergerer mot den sanne ES-gradienten med en 1/r-rate, så å presse ranken gjenskaper full ES-oppførsel uten den beregningseksplosjonen. Men det er eksperimentene der det blir galt. → De forhåndstrener rekurrente LM-er fra bunnen av ved kun å bruke heltallsdatatyper. Ingen gradienter. Ingen backprop. Fullstendig stabil selv på hyperskala. → De matcher GRPO-nivå-metoder på LLM-resonnementsbenchmarks. Det betyr at ES kan konkurrere med moderne RL-for-resonnering-tilnærminger på reelle oppgaver. → ES blir plutselig levedyktig for massive, diskrete, hybride og ikke-deriverbare systemer, akkurat de stedene hvor backprop er smertefullt eller umulig. ...