Gli SSM hanno promesso una modellazione linguistica efficiente per contesti lunghi, ma finora sembrano sottoperformare rispetto ai Transformer in molte impostazioni. Il nostro nuovo lavoro suggerisce che non si tratta di un problema degli SSM, ma di come li stiamo attualmente utilizzando. Arxiv: 🧵