Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La vue d'ensemble la plus complète sur l'apprentissage par renforcement (RL) que j'ai jamais vue.
Kevin Murphy de Google DeepMind, qui a plus de 128k citations, a écrit cela.
Ce qui rend cela différent des autres ressources sur le RL :
→ Cela fait le lien entre le RL classique et l'ère moderne des LLM :
Il y a un chapitre entier dédié à "LLMs et RL" couvrant :
- RLHF, RLAIF et modélisation des récompenses
- PPO, GRPO, DPO, RLOO, REINFORCE++
- Entraînement de modèles de raisonnement
- RL multi-tour pour agents
- Évolutivité des calculs au moment du test
→ Les fondamentaux sont d'une clarté cristalline
Chaque algorithme majeur, comme les méthodes basées sur la valeur, les gradients de politique et l'acteur-critique, est expliqué avec rigueur mathématique.
→ Le RL basé sur des modèles et les modèles du monde sont correctement couverts
Couvre Dreamer, MuZero, MCTS, et au-delà, ce qui est exactement la direction dans laquelle le domaine se dirige.
→ Section sur le RL multi-agent
Théorie des jeux, équilibre de Nash et MARL pour les agents LLM.
J'ai partagé le papier arXiv dans les réponses !

Meilleurs
Classement
Favoris
