Чи можуть мовні моделі вивчати корисні апріори, ніколи не бачачи мови? Ми попередньо тренуємо трансформатори на нейронних клітинних автоматах — повністю синтетичних, без жодної мови. Це покращує мовне моделювання до 6%, прискорює збіжність на 40% і посилює подальше мислення. Дивно, але він навіть кращий за попереднє навчання на природному тексті! Блог: (1/n)