Kolme päivää sitten lähdin automaattisen tutkimuksen virityksen nanochatista ~2 päiväksi depth=12-mallilla. Se löysi ~20 muutosta, jotka paransivat validointihäviötä. Testasin näitä muutoksia eilen, ja kaikki olivat additiivisia ja siirrettiin suurempiin (syvyys=24) malleihin. Kaikkien näiden muutosten perusteella mittasin tänään, että tulostaulun "Aika GPT-2:een" laskee 2,02 tunnista 1,80 tuntiin (~11 % parannus), tämä on uusi tulostaulun merkintä. Joten kyllä, nämä ovat todellisia parannuksia ja niillä on todellinen merkitys. Olen hieman yllättynyt, että ensimmäinen naiivi yritykseni toimi näin hyvin sen lisäksi, mitä luulin olevan melko hyvin säädetty käsin. Tämä on minulle ensimmäinen kerta, koska olen tottunut tekemään neuroverkkokoulutuksen iteratiivista optimointia manuaalisesti. Keksit ideoita, toteutat ne, tarkistat, toimivatko ne (parempi validoinnin menetys), keksit uusia ideoita niiden pohjalta, luet joitakin artikkeleita inspiraatiota varten jne. Tämä on se ydin siitä, mitä teen päivittäin kahden vuosikymmenen ajan. On uskomatonta nähdä agentin tekevän koko työnkulun alusta päähän ja yksin, kun se teki noin 700 muutosta itsenäisesti. Se tarkasteli todella kokeiden tulosten järjestystä ja käytti sitä seuraavien suunnitteluun. Se ei ole vielä uutta, uraauurtavaa "tutkimusta", mutta kaikki säädöt ovat "todellisia", en löytänyt niitä aiemmin manuaalisesti, ja ne kasaantuvat ja paransivat nanochatia. Suurten asioiden joukossa esimerkiksi: - Se huomasi virheen, että parametrittomassa QKnormissa ei ollut skaalauskertointa, joten huomioni oli liian hajanaista. Agentti löysi kertoimia terävöittääkseen sitä, mikä viittasi tulevaan työhön. - Se havaitsi, että Value Embeddingit todella pitävät regularisoinnista, enkä soveltanut mitään (hups). - Se huomasi, että nauhakiinnitykseni oli liian konservatiivinen (unohdin virittää sen). - Havaittiin, että AdamW-betat olivat kaikki sekaisin. - Se sääti painon laskuaikataulua. - Se viritti verkon alustumisen. Tämä on kaiken sen virityksen lisäksi, jonka olen jo tehnyt pitkän ajan kuluessa. Tarkka sitoutuminen löytyy täältä, tästä automaattisen tutkimuksen "kierroksesta 1". Aloitan "kierroksen 2", ja samanaikaisesti tarkastelen, miten useat agentit voivat tehdä yhteistyötä rinnakkaisuuden avaamiseksi. Kaikki LLM:n rajalaboratoriot tekevät tämän. Se on viimeinen pomotaistelu. Se on tietysti paljon monimutkaisempi mittakaavassa – ei ole vain yhtä junaa. Py-tiedosto viritettäväksi. Mutta sen tekeminen on "vain insinöörityötä" ja se tulee toimimaan. Käynnistät joukon agentteja, saat heidät virittämään pienempiä malleja, edistät lupaavimpia ideoita yhä suurempiin mittakaavoihin ja ihmiset (vapaaehtoisesti) osallistuvat reunoihin. Ja yleisemmin, *mikä tahansa* mittari, josta välität ja joka on kohtuullisen tehokas arvioida (tai jolla on tehokkaampia välitysmittareita, kuten pienemmän verkon kouluttaminen), voidaan automaattisesti tutkia agenttiparvella. Kannattaa miettiä, kuuluuko ongelmasi myös tähän ryhmään.