Oh sim. Finalmente a começar a pesquisa autoral do @karpathy, agora ajustada para a arquitetura do transformador de coerência. Modelo pequeno. 4 camadas × 4 cabeças × 256 dim ≈ ~5M parâmetros, treinando a 128, avaliando a 1024. Sem cabeças de atenção softmax. Substituídas por redes oscilatórias. Toda a geração é feita uma camada acima do transformador em uma rede de ressonância pura que orienta a geração de tokens. Aprendizagem contínua teórica e contexto infinito, uma vez que não há cache KV. Apenas um armazenamento de modos bloqueados em fase a partir de tokens acoplados de forma coerente.