Åh ja. Äntligen börjar vi med @karpathy:s autoresearch, nu justerad för koherenstransformatorarkitekturen. Liten modell. 4 lager × 4 huvuden × 256 dim ≈ ~5 miljoner params, tränar på 128, utvärderar vid 1024. Inga softmax-uppmärksamhetshuvuden. Ersattes med oscillatorgaller. All generering sker ett lager ovanför transformatorn i ett rent resonansgitter som styr tokengenereringen. Teoretisk kontinuerlig inlärning och oändlig kontext eftersom det inte finns någon KV-cache. Bara ett lager av faslåsta lägen från tokens som kopplas samman.