Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Zkoušel někdo RL přepsat výzvy pro modely uvažování, aby se dále zlepšily výstupy?
Předpokládám, že ano, je to docela zřejmé, ale pokud ne, chci to zkusit.
Pokud víte o nějaké existující práci zde, pls lmk, abych znovu nedělal něco, co už lidé udělali!
Tím myslím:
- Vezměte si již natrénovaný, zamrzlý model uvažování (tj. o4-mini přes API)
- Přidejte menší LLM, který převezme výzvu a přepíše ji, aby se zlepšil výkon zmrazeného modelu
- Aktualizujte menší váhy LLM, větší LLM nechte zmrazené
Doufá se, že malý LLM se naučí "řídit" CoT zmrazeného většího modelu lépe, než by to dokázal člověk, což zvýší výkon.
@corbtt mi připomněl tuto práci tím, že @brendanh0gan...
Brendane, jak to šlo? Vypadá to dost podobně jako to, co si myslím tady.

3. 7. 08:26
Velké modelky jsou skvělí agenti, ale často jsou příliš velcí, uzavření nebo choulostiví na to, aby je bylo možné doladit
Nápad: naučte malý model, aby vytvořil kontext pro zamrzlý velký model, ohodnoťte výstupy velkého modelu, použijte to jako odměnu za malý model
GRPO pro ladění kontextu. Více níže

17,5K
Top
Hodnocení
Oblíbené