nanochat ora allena il modello di capacità GPT-2 in sole 2 ore su un singolo nodo 8XH100 (ridotto da ~3 ore un mese fa). Ci stiamo avvicinando molto a ~interattivo! Sono stati apportati molti aggiustamenti e funzionalità (fp8), ma la differenza più grande è stata il passaggio del dataset da FineWeb-edu a NVIDIA ClimbMix (ottimo lavoro NVIDIA!). Avevo provato Olmo, FineWeb, DCLM, che hanno portato a regressioni, mentre ClimbMix ha funzionato davvero bene fin da subito (al punto che sono leggermente sospettoso riguardo al goodharting, anche se leggendo il documento sembra ~ok). In altre notizie, dopo aver provato alcuni approcci su come impostare le cose, ora ho agenti AI che iterano automaticamente su nanochat, quindi lascerò semplicemente questo in esecuzione per un po', andrò a rilassarmi un po' e godermi la sensazione di post-agi :). Visualizzato qui come esempio: 110 modifiche apportate nelle ultime ~12 ore, portando la perdita di validazione finora da 0.862415 a 0.858039 per un modello d12, senza alcun costo in termini di tempo reale. L'agente lavora su un ramo di funzionalità, prova idee, le unisce quando funzionano e itera. In modo divertente, nelle ultime ~2 settimane ho quasi la sensazione di aver iterato di più sulla "meta-impostazione" dove ottimizzo e affino i flussi degli agenti ancora più del repository nanochat direttamente.