Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Poté, co jsem viděl @karpathy nanochat, jsem byl posedlý myšlenkou použít GRPO pro jemné doladění lokálně na Macu.
Zprovoznil jsem to a celé to tady otevřel
Zde je nanochat, který prochází kroky řešení GSM8K datasetu, i když toho na něj 😅 může být příliš
Nejtěžší na tom bylo, že nanochat neměl plnou podporu MLX.
Existoval pouze jako soubory PyTorch .pt s vlastním tokenizérem tiktokenů.
Musel:
- Sestavení převodníku PyTorch → MLX
- Zjistěte formát tokenizátoru
- Zajistěte, aby to vše fungovalo s GRPO
V tomto úložišti se zabývám podrobnostmi převodu nanochatu na MLX.
Funguje pro OBA modely:
- Originální 20-vrstvá
- Karpathyho větší 32-vrstvý (d32)
Po převodu → spustit GRPO na libovolné datové sadě, kterou chcete.
Je to experimentální, ale myslím, že to ukazuje možnou budoucnost: silné dolaďování lokálních modelů na specializovaných datových sadách.
Součástí repo je také:
- Nástroje pro převod modelů do MLX
- Nástroje pro odvozování
- GRPO pracuje s JAKÝMKOLI modelem (nejen nanochat!)
15,47K
Top
Hodnocení
Oblíbené

