Mi piace davvero questa direzione di ricerca! Per molto tempo, ho parlato dell'analogia "cervello vs. database" tra SSM e Transformers. Un'estensione di questo che ho menzionato di sfuggita alcune volte è che penso che i compromessi cambino quando iniziamo a pensare alla costruzione di *sistemi* multi-componente piuttosto che a modelli singoli. Ad esempio, se si aderisce all'intuizione che i moderni modelli ibridi utilizzano l'SSM come principale unità di elaborazione "simile al cervello" mentre l'attenzione è principalmente per la memorizzazione "simile a un database" per aiutare con il recupero preciso, allora ho ipotizzato che forse un sistema più ottimale potrebbe essere un modello linguistico SSM puro combinato con database di conoscenza esterna espliciti e cache di contesto. Questo è molto più analogo all'intelligenza simile a quella umana, che è principalmente guidata dal cervello (un SSM) supportato da archivi di conoscenza esterna (libri, internet) e uso di strumenti. Questo articolo mostra risultati piuttosto interessanti che gli SSM sembrano avere prestazioni molto favorevoli rispetto ai Transformers in questo regime di modelli agentici che operano con l'uso interattivo degli strumenti. Sono felice di vedere l'intuizione convalidata e spero che ulteriori ricerche continuino lungo queste linee!