боже, жители Prime Intellect RL так усердно работают основным узким местом в непрерывном обучении является то, что у нас нет общего способа сравнивать и оценивать методы в разных областях задач я думаю, что @carnot_cyclist, возможно, решил эту проблему
Я не буду спойлерить, потому что хочу, чтобы он написал классный блог-пост об этом. Но вау, это просто действительно чистый формализм, который можно использовать для так многих разных вещей, и у него есть несколько хороших ранних экспериментальных результатов, чтобы это продемонстрировать.
147