Vydání mého repozitáře Grpo v2: nano-grpo-reasoning-gym Dvě velké změny (1) Tato verze zcela implementuje trénovací zásobník Grpo z pouhého pytorch/velmi jednoduchého kódu Pythonu - ale je nyní rozšířena o použití vLLM, jádra liger a dalších optimalizací, které výrazně urychlují trénování modelů (2) je postaven na repozitáři Reasoning Gym - a je postaven výhradně v mysli pro trénink a hodnocení na těchto prostředích uvažování Opravdu rád píšu věci od nuly, abych získal dobrou intuici o tom, jak věci fungují, a také mnoho mých výzkumných zájmů zahrnuje dělání podivných/malých věcí v procesu trénování a je pro mě mnohem snazší dělat to na jednodušším kódu moje předchozí repozitář byl postaven se stejným záměrem - ale aby to bylo nakonec jednoduché, neměl jsem žádné optimalizace - takže i když bylo extrémně snadné věci změnit, bylo to velmi pomalé a nepraktické pro serióznější tréninkové běhy stejně jako mnoho lidí jsem se začal více zajímat o to, jak se modely mohou učit v různých prostředích - Reasoning Gym poskytuje pěknou standardizovanou sadu úkolů, jak s tím experimentovat. Repo usnadňuje míchání různých úloh uvažování, trénovat na jedněch, evaluovat na jiných Pro mě je to o rychlém, ale jednoduchém pískovišti pro testování nápadů. Pro ostatní může být užitečné pochopit, jak grpo/vllm/liger fungují v praxi, nebo jako výchozí bod pro vaše vlastní experimenty Zde je první běh - trénink na leg_counting + family_relationships, eval na těch + coin_flip Všechna hodnocení se provádějí s pravděpodobnostním pass@1 pro 5 dokončení na úlohu, samozřejmě stále zašuměné. Počet nohou získá +20 % k výkonu, rodinné vztahy + 35 %, hod mincí (+8 %? Možná jen šum?) Odkaz na Github níže