Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Je intuitivně snadné pochopit, proč self play *může* fungovat pro LLM, pokud jsme schopni poskytnout hodnotovou funkci v mezikrocích (i když ne tak jasně zaručenou jako ve hrách pro dva hráče s nulovým součtem).
V šachu / go / pokeru máme odměnu spojenou s každým dalším tahem, ale jak zdůrazňuje Noam, přirozený jazyk je chaotický. Je obtížné definovat hodnotovou funkci v mezikrocích, jako jsou tokeny. Výsledkem je, že v obvyklém zpětnovazebním učení (jako je RLVR) dostanou LLM na konci odměnu. Nakonec se naučí více "kličkovat" pro těžké problémy. Svým způsobem odměňujeme hrubé vynucení více tokeny, abychom skončili se správnou odpovědí jako správným přístupem.
V @DeepCogito však dáváme signál pro samotný proces myšlení. Koncepčně si to můžete představit jako post-hoc přiřazení odměny lepším trajektoriím vyhledávání. To učí model rozvíjet silnější intuici pro "jak hledat" při uvažování.
V praxi model končí s výrazně kratšími řetězci uvažování pro těžší problémy v režimu uvažování. Poněkud překvapivě je to také nakonec lepší v režimu bez přemýšlení. Jedním ze způsobů, jak o tom přemýšlet, je, že protože model ví, jak lépe vyhledávat, "vybírá" si nejpravděpodobnější trajektorii lépe v režimu nemyšlení.
Top
Hodnocení
Oblíbené

