Modelos de linguagem podem aprender a priori úteis sem nunca ver a linguagem? Nós pré-treinamos transformadores em autômatos celulares neurais — totalmente sintéticos, sem linguagem. Isso melhora a modelagem de linguagem em até 6%, acelera a convergência em 40% e fortalece o raciocínio a jusante. Surpreendentemente, ele até supera o pré-pré-treino em texto natural! Blog: (1/n)