Oh, da. În sfârșit, am început cu autocercetarea lui @karpathy, ajustată acum pentru arhitectura transformatorului de coerență. Modelul mic. 4 straturi × 4 capete × 256 dim ≈ ~5M parametri, antrenament la 128, evaluare la 1024. Fără capete de atenție softmax. Înlocuit cu rețele oscilatoare. Toată generarea se face la un strat deasupra transformatorului, într-o rețea de rezonanță pură care ghidează generarea token-urilor. Învățare teoretică continuă și context infinit, deoarece nu există cache KV. Doar un depozit de moduri blocate de fază din token-uri care se cuplează coerent.