Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Самый полный обзор RL, который я когда-либо видел.
Кевин Мерфи из Google DeepMind, у которого более 128 тысяч цитирований, написал это.
Что отличает это от других ресурсов по RL:
→ Он соединяет классический RL с современной эпохой LLM:
Есть целая глава, посвященная "LLM и RL", охватывающая:
- RLHF, RLAIF и моделирование вознаграждений
- PPO, GRPO, DPO, RLOO, REINFORCE++
- Обучение моделей рассуждений
- Многоходовой RL для агентов
- Масштабирование вычислений во время тестирования
→ Основы кристально ясны
Каждый основной алгоритм, такой как методы на основе ценности, градиенты политики и актер-критик, объясняется с математической строгостью.
→ Модели на основе RL и мировые модели получают должное внимание
Охватывает Dreamer, MuZero, MCTS и далее, что именно туда движется эта область.
→ Раздел о многоагентном RL
Игровая теория, равновесие Нэша и MARL для агентов LLM.
Я поделился статьей arXiv в ответах!

Топ
Рейтинг
Избранное
