SSMs 承諾能有效地進行長上下文的語言建模,但到目前為止,在許多情境中似乎表現不如 Transformers。我們的新研究表明,這不是 SSMs 的問題,而是我們目前使用它們的方式存在問題。 Arxiv: 🧵