Utgivelse av GRPO V2-repoen min: nano-grpo-reasoning-gym to store endringer (1) denne implementerer GRPO-treningsstabelen helt fra bare pytorch/veldig enkel python-kode - men er nå utvidet til å bruke vLLM, liger-kjernen og andre optimaliseringer som gjør det mye raskere å trene modeller (2) den er bygget på toppen av resonneringsgym-repoen - og er bygget utelukkende i tankene for å trene og evaluere på disse resonneringsmiljøene Jeg liker veldig godt å skrive ting fra bunnen av for å få en god intuisjon for hvordan ting fungerer, og også mange av forskningsinteressene mine involverer å gjøre rare/små ting til treningsprosessen, og jeg synes det er mye lettere å gjøre på enklere kode min forrige repo ble bygget med samme intensjon - men for å holde det til syvende og sist enkelt hadde jeg egentlig ingen optimaliseringer - så selv om det var ekstremt enkelt å endre ting, var det veldig tregt og upraktisk for mer seriøse treningsløp som mange mennesker har jeg blitt mer interessert i hvordan modeller kan lære i flere miljøer - resonnement-treningsstudio gir et fint standardisert sett med oppgaver for å eksperimentere med dette. Repoen gjør det enkelt å blande forskjellige resonneringsoppgaver, trene på noen, evaluere andre For meg handler dette om å ha en rask, men enkel sandkasse for å teste ideer. For andre kan det være nyttig å forstå hvordan GRPO/VLLM/LIGER fungerer i praksis, eller som utgangspunkt for egne eksperimenter Her er en første runde - trening på leg_counting + family_relationships, evaluering på disse + coin_flip Alle vurderinger gjøres med sannsynlighetsbasert pass@1 for 5 fullføringer per oppgave, fortsatt støyende selvfølgelig. Antall ben får +20 % ytelse, familieforhold + 35 %, myntkast (+8 %? Kanskje bare støy?) Github-lenke nedenfor