Ah evet. Sonunda @karpathy'ın otomatik araştırmasına başlıyorum, şimdi tutarlılık transformatör mimarisi için ayarlanmış. Minik bir model. 4 katman × 4 baş × 256 dim ≈ ~5M param, 128 seviyesinde eğitim alıyor, 1024 seviyesinde değerlendiriyor. Softmax dikkat kafası yok. Osilatör kafesleriyle değiştirildi. Tüm üretim, transformatorun üzerinde bir katman ile saf bir rezonans kafesiyle yapılır ve token üretimini yönlendirir. Teorik sürekli öğrenme ve sonsuz bağlam çünkü KV önbelleği yok. Sadece faz kilitli modların tutarlı bir şekilde bağlandığı tokenlardan oluşan bir depo.