Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Den mest omfattande RL-översikten jag någonsin sett.
Kevin Murphy från Google DeepMind, som har över 128 000 citeringar, skrev detta.
Vad gör detta annorlunda än andra RL-resurser:
→ Den förenar klassisk RL med den moderna LLM-eran:
Det finns ett helt kapitel dedikerat till "LLM och RL" som täcker:
- RLHF, RLAIF och belöningsmodellering
- PPO, GRPO, DPO, RLOO, FÖRSTÄRKA++
- Träningsmodeller för resonememang
- Multi-turn RL för agenter
- Testtidsskalning av beräkningar
→ Grunderna är kristallklara
Varje större algoritm, som värdebaserade metoder, policygradienter och aktör-kritiker, förklaras med matematisk stringens.
→ Modellbaserade RL- och världsmodeller får rätt täckning
Täcker Dreamer, MuZero, MCTS och vidare, vilket är precis dit fältet är på väg.
→ Multiagent RL-sektion
Spelteori, Nash-jämvikt och MARL för LLM-agenter.
Jag har delat arXiv-artikeln i svaren!

Topp
Rankning
Favoriter
