Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Ця стаття про NVIDIA просто зламала мені мозок. Всі говорять про масштабування трансформерів більшими кластерами та розумнішими оптимізаторами... тим часом NVIDIA та Оксфорд щойно показали, що можна навчати моделі з мільярдами параметрів за допомогою стратегій еволюції — метод, який більшість людей вважали давнім. Фішка полягає в новій системі під назвою EGGROLL, яка перевертає всю модель витрат ES. Зазвичай ES зникає у масштабі, бо потрібно генерувати повнорангові матриці збурень для кожного члена популяції. Для моделей з мільярдними параметрами це означає шалений рух пам'яті та абсурдні обчислення. Ці хлопці вирішили проблему, створивши збурення низького рангу за допомогою двох вузьких матриць A і B, дозволивши ABT виступати як оновлення. Середній показник населення тоді поводиться як повне оновлення рангу, не сплачуючи ціну за повний ранг. Результат? Вони застосовують стратегії еволюції з розмірами популяцій у сотні тисяч, які раніше не могли торкнутися, бо все розплавилося під тиском пам'яті. Пропускна здатність фактично така ж швидка, як пакетне висновку. Це нечувано для будь-якого методу без градієнтів. Математика теж підходить. Апроксимація низького рангу збігається до істинного градієнта ES зі швидкістю 1/r, тому натискання на ранг відтворює повну поведінку ES без вибуху обчислень. Але саме експерименти — це те місце, де все стає справжнім божевіллям. → Вони попередньо навчають рекурентні LM з нуля, використовуючи лише цілочисельні типи даних. Жодних градієнтів. Без підкріплення. Повністю стабільний навіть у гіпермасштабі. → Вони відповідають методам рівня GRPO на еталонах логікування LLM. Це означає, що ES може конкурувати з сучасними підходами RL за міркування у реальних завданнях. → ES раптово стає життєздатним для масивних, дискретних, гібридних і недиференційованих систем саме в тих місцях, де бекпроп болісний або неможливий. ...

Найкращі

Рейтинг

Вибране