Los SSM prometieron un modelado de lenguaje eficiente para contextos largos, pero hasta ahora parecen tener un rendimiento inferior en comparación con los Transformers en muchos escenarios. Nuestro nuevo trabajo sugiere que este no es un problema de los SSM, sino de cómo los estamos utilizando actualmente. Arxiv: 🧵