Czy modele językowe mogą nauczyć się użytecznych priorytetów, nie widząc nigdy języka? Wstępnie trenujemy transformery na syntetycznych automatach komórkowych — całkowicie syntetycznych, bez języka. To poprawia modelowanie języka o 6%, przyspiesza zbieżność o 40% i wzmacnia rozumowanie w downstream. Zaskakująco, nawet przewyższa wstępne trenowanie na naturalnym tekście! Blog: (1/n)