Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Nejkomplexnější přehled reálného života, jaký jsem kdy viděl.
Kevin Murphy z Google DeepMind, který má přes 128 tisíc citací, napsal toto.
Čím se tento systém liší od ostatních zdrojů RL:
→ Propojuje klasickou RL s moderní érou LLM:
Celá kapitola je věnována "LLM a reálnému životu", která se věnuje:
- RLHF, RLAIF a modelování odměn
- PPO, GRPO, DPO, RLOO, REINFORCE++
- Trénování modelů uvažování
- Multi-turn RL pro agenty
- Škálování výpočetních výpočtů v době testu
→ Základy jsou naprosto jasné
Každý hlavní algoritmus, jako jsou metody založené na hodnotách, politické gradienty a actor-critic, je vysvětlen s matematickou přesností.
→ Modelové RL a světové modely mají řádné pokrytí
Zahrnuje Dreamer, MuZero, MCTS a další, což je přesně směr, kterým se obor ubírá.
→ Sekce RL s více agenty
Teorie her, Nashova rovnováha a MARL pro LLM agenty.
ArXiv článek jsem sdílel v odpovědích!

Top
Hodnocení
Oblíbené
