SSM承诺在长上下文中实现高效的语言建模,但到目前为止,在许多设置中似乎表现不如Transformer。我们的新研究表明,这并不是SSM的问题,而是我们目前使用它们的方式存在问题。 Arxiv: 🧵