Kan språkmodeller lära sig användbara priors utan att någonsin se språk? Vi förtränar transformatorer på neurala cellulära automater — helt syntetiskt, noll språk. Detta förbättrar språkmodelleringen med upp till 6 %, påskyndar konvergensen med 40 % och stärker det nedströms resonemanget. Överraskande nog slår det till och med förträning på naturlig text! Blogg: (1/n)