SSMs hứa hẹn mô hình hóa ngôn ngữ hiệu quả cho ngữ cảnh dài, nhưng cho đến nay dường như vẫn hoạt động kém hơn so với Transformers trong nhiều cài đặt. Công trình mới của chúng tôi gợi ý rằng đây không phải là vấn đề với SSMs, mà là cách chúng tôi hiện đang sử dụng chúng. Arxiv: 🧵