SSM menjanjikan pemodelan bahasa yang efisien untuk konteks yang panjang, tetapi sejauh ini tampaknya berkinerja buruk dibandingkan dengan Transformers dalam banyak pengaturan. Pekerjaan baru kami menunjukkan bahwa ini bukan masalah dengan SSM, tetapi dengan cara kami menggunakannya saat ini. Arxiv: 🧵