Ny CIFAR-10 treningshastighetsrekord: 94 % på 1,99 sekunder på én A100 Tidligere rekord: 2,59 sekunder (10. november 2024) Ny rekordholder: Algoritmisk oppdagelsesmotor utviklet av @hivergeai Endringslogg: - Muon: Vektoriser NS iter og reduser frekvensen av "normaliser vekter"-trinnet 1/3
- Data aug: Legg til fargejitter og vektoriser tilfeldig beskjæring - Kompilering: Kompiler xent fwd/bwd - Arkitektur: Erstatt GELU med SiLU, bruk SVD for første lag init, og bruk channels_last format med fp16 for alle konv-er - Hparams: justeringer inkludert bsz 2000 -> 1536 og epoker 8 -> 7.6 2/3
- TTA: Hopp over for enkle eksempler - Termisk struping: Sov i 8 sekunder mellom løpene (påvirker bare gjennomsnittlig ikke rekordtid) Merk: Forfatterne rapporterte en tid på 2,02 sekunder. Gjengivelsen min (lommelykt 2.7.0; maskinvare sett nedenfor) hadde en minimumstid på 1.99s. Kode: 3/3
81,85K