Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cea mai cuprinzătoare prezentare RL pe care am văzut-o vreodată.
Kevin Murphy de la Google DeepMind, care are peste 128.000 de citări, a scris acest mesaj.
Ce îl diferențiază de alte resurse RL:
→ Face legătura între RL clasic și era modernă a LLM-urilor:
Există un întreg capitol dedicat "LLM-urilor și RL-urilor" care acoperă:
- Modelare RLHF, RLAIF și recompensă
- PPO, GRPO, DPO, RLOO, REINFORCE++
- Modele de raționament de antrenament
- RL multi-turn pentru agenți
- Scalarea calculului în timpul testului
→ Fundamentele sunt clare ca lumina zilei
Fiecare algoritm major, precum metodele bazate pe valori, gradientele de politici și actor-critic, este explicat cu rigoare matematică.
→ Modelele RL și mondiale bazate pe modele beneficiază de o acoperire adecvată
Acoperă Dreamer, MuZero, MCTS și altele, exact direcția în care se îndreaptă domeniul.
→ Secțiunea RL multi-agent
Teoria jocurilor, echilibrul Nash și MARL pentru agenții LLM.
Am împărtășit articolul arXiv în răspunsuri!

Limită superioară
Clasament
Favorite
