Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
#PaperADay 15
2024: Опанування різноманітних сфер через світові моделі
(DreamerV3)
Застосовує останню модель Dreamer до понад 150 різноманітних завдань, отримуючи найсучасніші оцінки за багато з них, але найпомітніше — застосовує її до видобуток діамантів у Minecraft, що є значно складнішим викликом, ніж більшість завдань RL.
Преса повідомила про це як «ШІ розв'язує Minecraft», що є оманливим. Після 30 мільйонів (20 Гц) кроків у навколишньому середовищі (17 днів безперервно) він видобув діамант. На відміну від ігор для Atari, де грають з тими ж пікселями та керуванням, що й людина, це модифікований інтерфейс із інвентарем і характеристиками, які подаються безпосередньо моделі, а також категоричний простір дій — без руху миші по інвентарю та крафту.
Майнінг довелося модифікувати на миттєвий розрив замість звичайного багатосекундного утримання кнопки майнінгу, оскільки Dreamer використовує стохастичні політики дій, які майже не можуть утримувати кнопку сотні кадрів поспіль. Аналогічно, стрибкова дія вимагала кількох кадрів утримання, тому вона була миттєвою.
Проте це був перший раз, коли агент RL дійшов так далеко, не використавши імітацію, навчаючись у людських гравців, і всі інші еталони також були внесені значні покращення.
Покращення були здебільшого інженерними випробуваннями, а не зовсім іншими архітектурами. Я пропустив розділ «речі, які ми пробували, але не спрацювали» з V2.
Завдяки цим змінам вони можуть вигідно масштабувати модель з 12 млн до 400 млн параметрів, а коефіцієнт повторів — від 1 до 64 разів більший за рівень відтворення середовища.
Термінологія статей тепер ближча до інших статей RL: «Continue predictor» замість «discount predictor» і використання Pi для політичних мереж. Діаграми покращені.
У спільно навчених моделях існує напруга між прагненням моделі представлення деградувати для полегшення прогнозування і корисністю для прогнозування наступних станів. Один із трюків, який вони використовують, — це «безкоштовні біти», коли вони опускаються нижче певного рівня, щоб не намагатися дійти до нуля, дозволяючи протилежній силі рухатися вперед без опору.
Для категоріальних розподілів використовують 1% згладжування міток на категоріальних розподілах, щоб уникнути стрибків втрат KL. Вони називають це «унімікс» для змішування однорідного розподілу поверх існуючого дистрибутиву. Це нестандартно (на відміну від згладжування міток), але, можливо, краща термінологія.
Вони використовують двофазне категоріальне значення замість регресії MSE для критичного значення, але, на відміну від більшості інших реалізацій, використовують експоненціально розташовані біни замість лінійно розташованих, щоб покривати кілька порядків величини. Вони визначають функції symlog() / symexp(), щоб дозволити мережам обробляти значно варіювані значення як у позитивних, так і в негативних діапазонах. За повідомленнями, працює краще, ніж подібне нелінійне перетворення, яке використовується в MuZero та Muesli.
Це, очевидно, вимагало певної обережності: «Для обчислення очікуваного прогнозування м'якого розподілу для бінів, що охоплюють багато порядків величини, має значення порядку сумування, а додатні та від'ємні бінки слід підсумовувати окремо, від малих до великих, а потім додавати.»
Останній шар моделей винагороди та критики ініціалізується з нульовим позначенням, а не випадково ініціалізується, щоб уникнути потенційно великих хибних значень на початку навчання.
Цільова модель для функції значення тепер є EMA, а не періодичною копією.
Щоб отримати однаковий обсяг дослідження з градієнта політики незалежно від масштабу функцій значень, вони масштабують (експоненціально розташовані, тобто потенційно дуже великі) повернення до обмеженого діапазону, враховуючи лише діапазон від 5% до 95%, який виключає викиди.
...
Найкращі
Рейтинг
Вибране
