I modelli linguistici possono apprendere prior utili senza mai vedere il linguaggio? Pre-addestriamo i trasformatori su automi cellulari neurali — completamente sintetici, zero linguaggio. Questo migliora la modellazione del linguaggio fino al 6%, accelera la convergenza del 40% e rafforza il ragionamento a valle. Sorprendentemente, supera persino il pre-addestramento su testi naturali! Blog: (1/n)