Os SSMs prometeram modelagem de linguagem eficiente para contextos longos, mas até agora parecem ter um desempenho inferior em comparação com os Transformers em muitos cenários. Nosso novo trabalho sugere que isso não é um problema com os SSMs, mas com a forma como os estamos utilizando atualmente. Arxiv: 🧵