Магазин DApp | Web3-центр мероприятий и игр

все хотят работать над долгосрочным назначением кредитов, но это гораздо более актуальный и практический вопрос, на мой взгляд: как оптимально агрегировать несколько вознаграждений в один градиент? как это зависит от шума вознаграждения? очень классная работа :)

очевидно, что вы можете увеличить точность вознаграждений, потратив больше вычислительных ресурсов на оценку. текущая парадигма для этого заключается в том, чтобы задавать судье кучу вопросов с ответами да/нет, преобразовывать в 0/1, а затем... усреднять? устанавливать порог? это отбрасывает много битов, на которые мы потратили вычислительные ресурсы.

чтобы получить ответ, нам нужно решить, что такое "оптимально" — минимизация максимального ожидаемого судьи? средний судья? максимальная вероятность хотя бы K/N единиц? "вознаграждение" отлично, когда оно соответствует области (баллы, доллары), но на практике в RL это часто что-то, что мы просто придумываем для подъема по холму.

это круто, но очень насыщено теорией игр, и я не уверен, что это самая актуальная история для данной рубрики (где интративность не является настоящей проблемой). но это вопрос, который заслуживает более глубокого изучения.

То, как я думаю о "чистом" многорубриковом подходе, заключается в том, что мы предполагаем, что есть N бинарных функций вознаграждения для задачи, все из которых plausibly удовлетворимы идеальным решением, но наши наблюдения за вознаграждением немного шумные. "Максимизировать вероятность идеального решения" может быть?