nanochat nyní trénuje model schopností GPT-2 za pouhé 2 hodiny na jednom uzlu 8XH100 (což je pokles z ~3 hodin před měsícem). Blížíme se k ~interaktivnímu! Bylo tam spousta ladění a funkcí (fp8), ale největší rozdíl byl přechod datové sady z FineWeb-edu na NVIDIA ClimbMix (dobrá práce, NVIDIA!). Zkoušel jsem Olmo, FineWeb, DCLM, což vedlo k regresím, ClimbMix fungoval opravdu dobře hned po vybalení (až do té míry, že jsem trochu podezřívavý ohledně Goodhartingu, ale podle článku to vypadá ~v pořádku). Mimochodem, po několika pokusech o nastavení věcí mám teď AI agenty, kteří automaticky iterují nanochat, takže to nechám chvíli běžet, půjdu si trochu odpočinout a užít si pocit post-agi :). Zde je vizualizováno jako příklad: 110 změn provedených za posledních ~12 hodin, což snižuje ztrátu validace z 0,862415 na 0,858039 pro model d12, bez ztráty na hodinách na stěně. Agent pracuje na větvi funkcí, zkouší nápady, spojuje je, když fungují, a iteruje. Zábavné je, že za posledních ~2 týdny mám pocit, že jsem víc vylepšil "meta-nastavení", kde optimalizuji a ladím agentové toky ještě víc než přímo nanochat repozitář.