Os modelos de linguagem podem aprender priors úteis sem nunca ver linguagem? Nós pré-treinamos transformadores em autômatos celulares neurais — totalmente sintéticos, sem linguagem. Isso melhora a modelagem de linguagem em até 6%, acelera a convergência em 40% e fortalece o raciocínio a jusante. Surpreendentemente, isso até supera o pré-treinamento em texto natural! Blog: (1/n)