Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Ми застосували Karpathy Auto Research до шахів через Opal, і результати були сильними. Замість того, щоб покладатися на відкриття книг чи запам'ятовувану теорію, система вчиться безпосередньо на результатах. Агент грає матчі сам із собою, оцінює позиції за допомогою рушія, оновлює політику і запускає цикл знову. З часом цей цикл зворотного зв'язку накопичується. Самогра -> Оцінка -> Оновлення політики -> Повторити. Результатом стало покращення ELO на +596. Коли цикл навчання напружений, прогрес швидко прискорюється.

Найкращі

Рейтинг

Вибране