一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我真的很喜欢这个研究方向！很长一段时间以来，我一直在谈论SSMs与Transformers之间的“脑与数据库”类比。我提到过的一个延伸观点是，当我们开始考虑构建多组件*系统*而不是单一模型时，权衡会发生变化。例如，如果有人认同这样的直觉：现代混合模型将SSM作为主要的“类脑”处理单元，而注意力主要用于“类数据库”的缓存，以帮助精确检索，那么我假设一个更优的系统可能是一个纯SSM语言模型，结合明确的外部知识数据库和上下文缓存。这更类似于人类智能，主要由大脑（一个SSM）驱动，辅以外部知识库（书籍、互联网）和工具使用。这篇论文显示了相当有趣的结果，SSMs在这种交互式工具使用的代理模型中似乎表现得非常优越于Transformers。很高兴看到这个直觉得到了验证，希望更多的研究能继续沿着这些方向进行！