Мені дуже подобається цей науковий напрямок! Я вже давно говорю про аналогію «мозок проти бази даних» між SSM та Transformers. Продовженням того, про що я вже згадував кілька разів, є те, що, на мою думку, компроміси змінюються, коли ми починаємо думати про створення багатокомпонентних систем, а не окремих моделей. Наприклад, якщо погодитися з інтуїцією, що сучасні гібридні моделі використовують SSM як основний «мозкоподібний» процесор, в той час як основна увага приділяється «базоподібному» кешуванню, яке допомагає з точним пошуком, то я висунув гіпотезу, що, можливо, більш оптимальною системою може бути чиста модель мови SSM у поєднанні з явними зовнішніми знаннями базами даних і контекстними кешами. Це набагато більше схоже на людський інтелект, який в першу чергу керується мозком (SSM) за допомогою зовнішніх сховищ знань (книги, Інтернет) та використання інструментів. У даній роботі показані досить цікаві результати, що SSM дійсно мають дуже сприятливі характеристики в порівнянні з трансформерами в цьому режимі агентних моделей, що працюють з інтерактивним використанням інструменту. Радий бачити, що інтуїція підтвердилася, і я сподіваюся, що подальші дослідження в цьому напрямку тривають!