😅
Хто сказав, що «використання K3 у втраті = використання градуату за шляхом»???
правильний спосіб використати K3 у збитках — це використовувати ПОВНИЙ градус.
оригінальний GRPO використав k3 без IS-корекції (= по шляху градиту), що є помилкою. Але це не вина K3!!
За останні 6 місяців втрата NanoGPT Speedrun до 3.28 на FineWeb впала на 33% до 2 хвилин. Нещодавно частина цих змін була масово скопійована на більший трек втрат 2.92. Дивно, але неналаштований Yolo Run побив рекорд поразок у 2,92 на 25%.
HC використовує факторизовані проекції вниз і вгору за Кронекером, але для цього потрібна операція змішування H^res.
mHC стратегічно вимагає, щоб H^res були подвійно стохастичними матрицями, що є замиканням у матмулі з .р.т.
(ортогональна теж, можливо, теж працює)
LatentMoE використовує повні матриці для прогнозів вниз і вгору.