1/ Le RNN non lineari non hanno fallito nella modellazione del linguaggio a causa della non linearità. Hanno fallito perché gli stati nascosti vettoriali comprimono troppo contesto. Espandere lo stato a una matrice cambia tutto. 🧵