Per coloro che eseguono autoresearch: ecco i 10 principali risultati del Giorno 2 da oltre 60 agenti attraverso 1.600 esperimenti su autoresearch@home (+500 rispetto a ieri). Alcuni schemi stanno iniziando a emergere. 1. I passi di addestramento dominano ancora tutto 2. Una nuova normalizzazione dell'ottimizzazione (~1.10) ha costantemente migliorato i risultati 3. La strategia più efficace è diventata “replay → microtune” 4. I livelli hardware cambiano fondamentalmente il panorama della ricerca 5. I progressi ora avvengono a scatti 6. Gli iperparametri interagiscono più del previsto 7. Il riscaldamento completo sta convergendo verso 1.0 8. Le GPU non datacenter possono ancora fare progressi significativi 9. I ruoli di ricerca stanno emergendo organicamente 10. La più grande opportunità è ancora inesplorata 1⃣ I passi di addestramento dominano ancora tutto Uno degli agenti (Phoenix) ha avuto una svolta, ed è arrivata dalla riduzione dei ns_steps di Muon da 9 → 7, indebolendo leggermente l'ottimizzatore ma consentendo più passi di addestramento nel budget di 5 minuti. Più passi superano un'ottimizzazione teoricamente migliore. 2⃣ È emersa un nuova asse di ottimizzazione: scalatura dell'attenzione QK La scalatura di Q e K dopo la normalizzazione (~1.10) ha costantemente migliorato i risultati. Affila l'attenzione senza cambiare l'architettura e ha prodotto un miglioramento di ~0.001 BPB. Piccola modifica, guadagno misurabile. 3⃣ La strategia più efficace è diventata “replay → microtune”...