🔥 这改变了关于长上下文 AI 的一切。 一篇新论文《每个注意力都重要》悄然重塑了变压器处理 128K+ 令牌的方式。 Ling 团队构建了一种混合的“环线性”注意力,将 Softmax 与线性注意力融合在一起。 结果?推理成本降低 10 倍,且没有准确性折衷。 但让我惊讶的是: +50% 的训练效率 +90% 的推理速度 在超长序列中实现稳定的 RL 优化 没有万亿参数的无稽之谈。 没有奇特的硬件。 只有更智能的架构。 AI 的未来不是更大的注意力,而是更智能的注意力。