Ця стаття про NVIDIA просто зламала мені мозок. Всі говорять про масштабування трансформерів більшими кластерами та розумнішими оптимізаторами... тим часом NVIDIA та Оксфорд щойно показали, що можна навчати моделі з мільярдами параметрів за допомогою стратегій еволюції — метод, який більшість людей вважали давнім. Фішка полягає в новій системі під назвою EGGROLL, яка перевертає всю модель витрат ES. Зазвичай ES зникає у масштабі, бо потрібно генерувати повнорангові матриці збурень для кожного члена популяції. Для моделей з мільярдними параметрами це означає шалений рух пам'яті та абсурдні обчислення. Ці хлопці вирішили проблему, створивши збурення низького рангу за допомогою двох вузьких матриць A і B, дозволивши ABT виступати як оновлення. Середній показник населення тоді поводиться як повне оновлення рангу, не сплачуючи ціну за повний ранг. Результат? Вони застосовують стратегії еволюції з розмірами популяцій у сотні тисяч, які раніше не могли торкнутися, бо все розплавилося під тиском пам'яті. Пропускна здатність фактично така ж швидка, як пакетне висновку. Це нечувано для будь-якого методу без градієнтів. Математика теж підходить. Апроксимація низького рангу збігається до істинного градієнта ES зі швидкістю 1/r, тому натискання на ранг відтворює повну поведінку ES без вибуху обчислень. Але саме експерименти — це те місце, де все стає справжнім божевіллям. → Вони попередньо навчають рекурентні LM з нуля, використовуючи лише цілочисельні типи даних. Жодних градієнтів. Без підкріплення. Повністю стабільний навіть у гіпермасштабі. → Вони відповідають методам рівня GRPO на еталонах логікування LLM. Це означає, що ES може конкурувати з сучасними підходами RL за міркування у реальних завданнях. → ES раптово стає життєздатним для масивних, дискретних, гібридних і недиференційованих систем саме в тих місцях, де бекпроп болісний або неможливий. ...