Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La visión más completa sobre RL que he visto jamás.
Kevin Murphy de Google DeepMind, que tiene más de 128k citas, escribió esto.
Lo que hace que esto sea diferente de otros recursos de RL:
→ Conecta la RL clásica con la era moderna de los LLM:
Hay un capítulo entero dedicado a "LLMs y RL" que cubre:
- RLHF, RLAIF y modelado de recompensas
- PPO, GRPO, DPO, RLOO, REINFORCE++
- Entrenamiento de modelos de razonamiento
- RL de múltiples turnos para agentes
- Escalado de computación en tiempo de prueba
→ Los fundamentos son cristalinos
Cada algoritmo importante, como los métodos basados en valor, gradientes de política y actor-crítico, se explican con rigor matemático.
→ La RL basada en modelos y los modelos del mundo reciben la cobertura adecuada
Cubre Dreamer, MuZero, MCTS y más allá, que es exactamente hacia donde se dirige el campo.
→ Sección de RL multiagente
Teoría de juegos, equilibrio de Nash y MARL para agentes LLM.
¡He compartido el artículo de arXiv en las respuestas!

Parte superior
Clasificación
Favoritos
