Los SSM prometieron un modelado de lenguaje eficiente para un contexto largo, pero hasta ahora parecen tener un rendimiento inferior en comparación con Transformers en muchos entornos. Nuestro nuevo trabajo sugiere que esto no es un problema con los SSM, sino con la forma en que los estamos usando actualmente. Arxiv: 🧵