Oh iya. Akhirnya memulai penelitian otomatis @karpathy, disesuaikan sekarang untuk arsitektur transformator koherensi. Model kecil. 4 lapisan × 4 kepala × 256 ≈ redup ~ 5M param, pelatihan pada 128, evaluasi pada 1024. Tidak ada kepala perhatian softmax. Diganti dengan kisi osilator. Semua generasi dilakukan satu lapisan di atas transformator dalam kisi resonansi murni yang mengarahkan generasi token. Pembelajaran berkelanjutan teoretis dan konteks tak terbatas karena tidak ada cache KV. Hanya penyimpanan mode terkunci fase dari token yang digabungkan secara koheren.