О так. Нарешті починаю @karpathy autoresearch, тепер підлаштовую для архітектури когерентного трансформатора. Крихітна модель. 4 шари × 4 головки × 256 димних ≈ ~5М параметрів, тренування на 128, оцінка на 10:24. Жодних м'яких голов уваги. Замінили на осциляторні ґратки. Вся генерація здійснюється на шарі над трансформатором у чисто резонансній решітці, яка керує генерацією токенів. Теоретичне безперервне навчання і нескінченний контекст, оскільки кешу KV немає. Просто сховище фазово заблокованих режимів від токенів, які зв'язуються когерентно.