😅
Vem sa att "använda K3 i förlust = använda path-wise grad"???
det korrekta sättet att använda k3 i förlust är att använda FULL grad.
och GRPO använde k3 utan IS-korrigering (= vägvis-grad), vilket är fel. Men det är inte K3:s fel!!
Under de senaste 6 månaderna sjönk NanoGPT:s speedrun till 3,28 på FineWeb med 33 % till 2 minuter. Nyligen kopierades en del av dessa förändringar i bulk till den större förlustspåret på 2,92. Överraskande nog slog den otrimmade yolo-runen förlustrekordet på 2,92 med 25%.
HC använder kroneckerfaktoriserade ned-och-upp-projektioner, men det krävs en blandningsoperation H^res.
mHC kräver strategiskt att H^res är dubbelt stokastiska matriser, vilket är en stängning med avseende på matmul.
(ortogonalt kanske också fungerar)
LatentMoE använder hela matriser för ned- och uppprojektioner.
Intressant. HyperConnection och LatentMoE gör faktiskt liknande saker.
skärmdump tagen från Deepseeks nya artikel (uppladdad av Liang)
CC @teortaxesTex