Могут ли языковые модели изучать полезные приоритеты, не видя язык? Мы предварительно обучаем трансформеры на нейронных клеточных автоматах — полностью синтетических, без языка. Это улучшает языковое моделирование на 6%, ускоряет сходимость на 40% и укрепляет последующее рассуждение. Удивительно, но это даже превосходит предварительное обучение на естественном тексте! Блог: (1/n)