все хотят работать над долгосрочным назначением кредитов, но это гораздо более актуальный и практический вопрос, на мой взгляд: как оптимально агрегировать несколько вознаграждений в один градиент? как это зависит от шума вознаграждения? очень классная работа :)
Gokul Swamy
Gokul Swamy17 часов назад
Потребовалось несколько лет глубоких размышлений, но я очень рад наконец поделиться PROSPER: красивым алгоритмом на основе регрессии для RL от *rubric rewards*, который надежно справляется с *непоследовательной обратной связью*, которую предоставляют судьи LLM. Давайте вернемся к Black(well)! 🧵(1/n)
очевидно, что вы можете увеличить точность вознаграждений, потратив больше вычислительных ресурсов на оценку. текущая парадигма для этого заключается в том, чтобы задавать судье кучу вопросов с ответами да/нет, преобразовывать в 0/1, а затем... усреднять? устанавливать порог? это отбрасывает много битов, на которые мы потратили вычислительные ресурсы.
чтобы получить ответ, нам нужно решить, что такое "оптимально" — минимизация максимального ожидаемого судьи? средний судья? максимальная вероятность хотя бы K/N единиц? "вознаграждение" отлично, когда оно соответствует области (баллы, доллары), но на практике в RL это часто что-то, что мы просто придумываем для подъема по холму.
это круто, но очень насыщено теорией игр, и я не уверен, что это самая актуальная история для данной рубрики (где интративность не является настоящей проблемой). но это вопрос, который заслуживает более глубокого изучения.
То, как я думаю о "чистом" многорубриковом подходе, заключается в том, что мы предполагаем, что есть N бинарных функций вознаграждения для задачи, все из которых plausibly удовлетворимы идеальным решением, но наши наблюдения за вознаграждением немного шумные. "Максимизировать вероятность идеального решения" может быть?
1,71K