J'aime vraiment cette direction de recherche ! Depuis longtemps, je parle de l'analogie "cerveau vs. base de données" des SSM par rapport aux Transformers. Une extension de cela que j'ai mentionnée en passant quelques fois est que je pense que les compromis changent lorsque nous commençons à penser à la construction de *systèmes* multi-composants plutôt qu'à des modèles uniques. Par exemple, si l'on adhère à l'intuition selon laquelle les modèles hybrides modernes utilisent le SSM comme principale unité de traitement "semblable au cerveau" tandis que l'attention est principalement utilisée pour le caching "semblable à une base de données" afin d'aider à une récupération précise, alors j'ai émis l'hypothèse qu'un système plus optimal pourrait être un modèle de langage SSM pur combiné avec des bases de données de connaissances externes explicites et des caches de contexte. Cela est beaucoup plus analogue à l'intelligence humaine qui est principalement guidée par le cerveau (un SSM) aidé par des réserves de connaissances externes (livres, internet) et l'utilisation d'outils. Cet article montre des résultats assez intéressants selon lesquels les SSM semblent avoir des performances très favorables par rapport aux Transformers dans ce régime de modèles agentiques opérant avec une utilisation interactive d'outils. Heureux de voir l'intuition validée, et j'espère que d'autres recherches continueront dans ce sens !