Os SSMs prometiam modelagem de linguagem eficiente para contexto longo, mas até agora parecem ter um desempenho inferior em comparação com os Transformers em muitos ambientes. Nosso novo trabalho sugere que isso não é um problema com os SSMs, mas com a forma como os estamos usando atualmente. Arxiv: 🧵