Před třemi dny jsem opustil autoresearch tuning nanochat na ~2 dny na modelu depth=12. Zjistil ~20 změn, které zlepšily ztrátu validace. Tyto změny jsem testoval včera a všechny byly aditivní a přeneseny do větších (hloubka=24) modelů. Když všechny tyto změny shrnu, dnes jsem změřil, že "Čas do GPT-2" v žebříčku klesl z 2,02 hodiny na 1,80 hodiny (~11% zlepšení), a toto bude nový záznam v žebříčku. Takže ano, jsou to skutečné zlepšení a skutečně mají význam. Jsem mírně překvapený, že můj úplně první naivní pokus už tak dobře fungoval navíc k tomu, co jsem považoval za poměrně ručně dobře naladěný projekt. Je to pro mě poprvé, protože jsem velmi zvyklý provádět iterativní optimalizaci tréninku neuronových sítí ručně. Přicházíte s nápady, realizujete je, kontrolujete, jestli fungují (lepší ztráta validace), vymýšlíte nové nápady na základě toho, čtete nějaké články pro inspiraci atd. To je základ toho, co dělám denně už dvě desetiletí. Vidět agenta, jak dělá celý tento pracovní postup od začátku do konce a sám, zatímco zvládl přibližně 700 změn autonomně, je šílené. Opravdu se zaměřil na sled výsledků experimentů a použil to k plánování dalších. Není to žádný nový, průlomový "výzkum" (zatím), ale všechny úpravy jsou "skutečné", dříve jsem je ručně nenašel a navíc se sčítají a dokonce zlepšily nanochat. Mezi větší věci patří například: - Všiml si, že můj QKnorm bez parametrů neměl připojený násobič škálování, takže moje pozornost byla příliš rozptýlená. Agent našel násobiče, které ji ostřují a ukazují na budoucí práci. - Zjistil, že Value Embeddings opravdu vyhovují regularizaci a já jsem žádnou neaplikoval (ups). - Zjistil, že moje pásmová pozornost byla příliš konzervativní (zapomněl jsem ji naladit). - Zjistil, že AdamW bety byly všechny rozbité. - Ladil harmonogram úbytku hmotnosti. - Ladil inicializaci sítě. A to je navíc ke všemu ladění, které jsem už dělal po delší dobu. Přesný commit je zde, z tohoto "kola 1" automatického výzkumu. Zahájím "druhé kolo" a současně se podívám, jak může více agentů spolupracovat na odemknutí paralelismu. Všechny LLM Frontier Labs to dělají. Je to finální souboj s bossem. Samozřejmě je to mnohem složitější ve velkém měřítku – nemáte jen jeden vlak. Py-soubor na ladění. Ale dělat to je "jen inženýrství" a bude to fungovat. Vytvoříte roj agentů, necháte je spolupracovat na ladění menších modelů, propagujete nejperspektivnější nápady na stále větší měřítka a lidé (volitelně) přispívají na okrajích. A obecněji, *jakákoliv metrika, na které vám záleží a která je rozumně efektivní na vyhodnocení (nebo má efektivnější proxy metriky, například trénování menší sítě), může být automaticky prozkoumána agentním rojem. Stojí za to přemýšlet, jestli do této kategorie také nespadá váš problém.