Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Den mest omfattende RL-oversikten jeg noen gang har sett.
Kevin Murphy fra Google DeepMind, som har over 128 000 sitater, skrev dette.
Hva gjør dette annerledes enn andre RL-ressurser:
→ Den bygger bro mellom klassisk RL og den moderne LLM-æraen:
Det finnes et helt kapittel dedikert til «LLM-er og RL» som dekker:
- RLHF, RLAIF og belønningsmodellering
- PPO, GRPO, DPO, RLOO, FORSTERKER++
- Treningsmodeller for resonnement
- Multi-turn RL for agenter
- Testtids beregningsskalering
→ Grunnprinsippene er krystallklare
Alle større algoritmer, som verdibaserte metoder, policygradienter og aktør-kritiker, forklares med matematisk grundighet.
→ Modellbaserte RL- og verdensmodeller får skikkelig dekning
Dekker Dreamer, MuZero, MCTS og videre, som er akkurat dit feltet er på vei.
→ Multi-agent RL-seksjon
Spillteori, Nash-likevekt og MARL for LLM-agenter.
Jeg har delt arXiv-artikkelen i svarene!

Topp
Rangering
Favoritter
