Jaamme varhaisen ennakkokatsauksen käynnissä olevasta SWE-1.6-koulutusjaksostamme. Se parantaa merkittävästi SWE-1.5:ttä, kun se on jälkikoulutuksessa samalla esikoulutetulla mallilla – ja se toimii yhtä nopeasti 950 tok/s nopeudella. SWE-Bench Prossa se ylittää parhaat avoimen lähdekoodin mallit. Esikatselumalli osoittaa edelleen joitakin ei-toivottuja käyttäytymismalleja, kuten liiallista ajattelua ja liiallista itsevarmistusta, joita pyrimme parantamaan. Otamme varhaisen pääsyn käyttöön pienelle osalle Windsurfin käyttäjiä.
Hiomme RL-reseptiämme ja skaalauduimme infrastruktuuriamme avaamaan kaksi kertaluokkaa enemmän laskentatehoa kuin mitä SWE-1.5:n kouluttamiseen käytettiin. Laajensimme merkittävästi RL-ympäristöjen määrää ja näemme jatkuvaa kehitystä RL-koulutuksen myötä.
On ollut hauskaa seurata, kuinka malli oppii ajattelemaan tarkemmin ja iteroimaan enemmän käännöksiä vaikeissa SWE-Bench Pro -ongelmissa. Toisaalta havaitsemme liiallista ajattelua ja liiallista itsevarmistusta omassa koiranruoassamme. Oikean tasapainon löytäminen interaktiivisuuden ja pitkän aikavälin ajattelun välillä on aktiivinen tutkimusalue.
Optimoimme harjoituspinon toimimaan 6 kertaa nopeammin kuin kolme kuukautta sitten. Esimerkiksi algoritmimme sietää nyt korkeampaa vanhentumista, mikä mahdollisti päättelymoottoreiden täyden hyödyntämisen. Blogikirjoituksessamme (), jaamme lisää yksityiskohtia koulutusoptimoinneistamme ja siitä, miten hallitsemme GPU:n allokaatiota asynkronisessa RL:ssä.
88