Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A visão geral mais completa do RL que já vi.
Kevin Murphy, do Google DeepMind, que tem mais de 128 mil citações, escreveu isto.
O que diferencia isso de outros recursos de RL:
→ Ela faz a ponte entre o RL clássico e a era moderna dos LLMs:
Há um capítulo inteiro dedicado a "LLMs e RL" que aborda:
- Modelagem RLHF, RLAIF e de recompensa
- PPO, GRPO, DPO, RLOO, REINFORCE++
- Modelos de raciocínio de treinamento
- RL multi-turno para agentes
- Escalonamento computacional em tempo de teste
→ Os fundamentos são cristalinos
Todo algoritmo principal, como métodos baseados em valores, gradientes de políticas e ator-crítico, é explicado com rigor matemático.
→ Modelos RL e mundiais baseados em modelos recebem cobertura adequada
Abrange Dreamer, MuZero, MCTS e além, que é exatamente para onde o campo está caminhando.
→ Seção RL Multiagente
Teoria dos jogos, equilíbrio de Nash e MARL para agentes LLM.
Compartilhei o artigo do arXiv nas respostas!

Melhores
Classificação
Favoritos
