Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Utgivelse av GRPO V2-repoen min: nano-grpo-reasoning-gym
to store endringer (1) denne implementerer GRPO-treningsstabelen helt fra bare pytorch/veldig enkel python-kode - men er nå utvidet til å bruke vLLM, liger-kjernen og andre optimaliseringer som gjør det mye raskere å trene modeller
(2) den er bygget på toppen av resonneringsgym-repoen - og er bygget utelukkende i tankene for å trene og evaluere på disse resonneringsmiljøene
Jeg liker veldig godt å skrive ting fra bunnen av for å få en god intuisjon for hvordan ting fungerer, og også mange av forskningsinteressene mine involverer å gjøre rare/små ting til treningsprosessen, og jeg synes det er mye lettere å gjøre på enklere kode
min forrige repo ble bygget med samme intensjon - men for å holde det til syvende og sist enkelt hadde jeg egentlig ingen optimaliseringer - så selv om det var ekstremt enkelt å endre ting, var det veldig tregt og upraktisk for mer seriøse treningsløp
som mange mennesker har jeg blitt mer interessert i hvordan modeller kan lære i flere miljøer - resonnement-treningsstudio gir et fint standardisert sett med oppgaver for å eksperimentere med dette. Repoen gjør det enkelt å blande forskjellige resonneringsoppgaver, trene på noen, evaluere andre
For meg handler dette om å ha en rask, men enkel sandkasse for å teste ideer. For andre kan det være nyttig å forstå hvordan GRPO/VLLM/LIGER fungerer i praksis, eller som utgangspunkt for egne eksperimenter
Her er en første runde - trening på leg_counting + family_relationships, evaluering på disse + coin_flip
Alle vurderinger gjøres med sannsynlighetsbasert pass@1 for 5 fullføringer per oppgave, fortsatt støyende selvfølgelig.
Antall ben får +20 % ytelse, familieforhold + 35 %, myntkast (+8 %? Kanskje bare støy?)
Github-lenke nedenfor




Topp
Rangering
Favoritter

