Saya sangat menyukai arah penelitian ini! Untuk waktu yang lama, saya telah berbicara tentang analogi "otak vs. database" dari SSM vs Transformers. Perpanjangan dari ini yang telah saya sebutkan secara spontan beberapa kali adalah bahwa saya pikir pengorbanan berubah ketika kita mulai berpikir tentang membangun *sistem* multi-komponen daripada model tunggal. Misalnya, jika seseorang berlangganan intuisi bahwa model hibrida modern menggunakan SSM sebagai unit pemrosesan "seperti otak" utama sementara perhatiannya terutama untuk caching "seperti database" untuk membantu pengambilan yang tepat, maka saya berhipotesis bahwa mungkin sistem yang lebih optimal bisa menjadi model bahasa SSM murni yang dikombinasikan dengan database pengetahuan eksternal eksplisit dan cache konteks. Ini jauh lebih analog dengan kecerdasan seperti manusia yang terutama didorong oleh otak (SSM) yang dibantu oleh penyimpanan pengetahuan eksternal (buku, internet) dan penggunaan alat. Makalah ini menunjukkan hasil yang cukup menarik bahwa SSM tampaknya memiliki kinerja yang sangat menguntungkan dibandingkan dengan Transformers dalam rezim model agen yang beroperasi dengan penggunaan alat interaktif ini. Senang melihat intuisi divalidasi, dan saya harap lebih banyak penelitian berlanjut di sepanjang garis ini!