Rakensimme vahingossa itseään parantavia tekoälyjärjestelmiä. Tämä Oxfordin yliopiston tutkimus todistaa sen. Useimmat olettavat, että mallin parannukset tulevat suuremmista arkkitehtuureista tai huolellisesti suunnitelluista vahvistusoppimisputkista. Tämä teos osoittaa jotain hienovaraisempaa ja häiritsevämpää. Jos otat mallin käyttöön, annat käyttäjien olla vuorovaikutuksessa sen kanssa, suodatat epäonnistumiset pois ja hienosäädät vain onnistuneita jäljityksiä, malli alkaa kehittää suunnittelukykyjään itsestään. Ei nimenomaisia palkintoja, käsin laadittu opetussuunnitelma eikä ulkoista suunnittelijaa. Vain iterointi. Kirjoittajat kutsuvat tätä iteratiiviseksi käyttöönotoksi, ja he testaavat sitä hallituissa suunnitteluympäristöissä kuten Blocksworld, Rovers ja Sokoban. Asetelma on yksinkertainen: 1. Ota LLM käyttöön suunnittelutehtäviin 2. Pidä vain ne suunnitelmat, jotka oikeasti toimivat 3. Hienosäädä seuraava versio näillä pätevillä jäljillä Toista Vain viiden sukupolven jälkeen suunnittelun suorituskyky yli kaksinkertaistuu kaikilla aloilla. Joissain tapauksissa se paranee 4–5-kertaiseksi. Vielä mielenkiintoisempaa on, että myöhemmät sukupolvet löytävät paljon pidempiä suunnitelmia kuin perusmalli, jotka osoittavat todellista jakelun ulkopuolista yleistystä, eivät pelkästään muotoilukikkaita tai promptien noudattamista. Tässä on keskeinen oivallus. Artikkeli osoittaa, että tämä prosessi on matemaattisesti vastaava vahvistusoppimisen kanssa, jossa on binäärinen palkitsemissignaali. Mutta palkitsemisfunktiota ei koskaan kirjoiteta ylös. ...