🔥 這改變了長上下文 AI 的一切。 一篇新論文 "每個注意力都重要" 靜靜地重新設計了變壓器如何處理 128K+ 的標記。 Ling 團隊建立了一種混合的 "環形線性" 注意力,將 Softmax 與線性注意力融合在一起。 結果?推理成本降低 10 倍,且沒有準確性折衷。 但這裡有讓我驚訝的地方: +50% 的訓練效率 +90% 的推理速度 穩定的強化學習優化,適用於超長序列 沒有萬億參數的無稽之談。 沒有奇特的硬體。 只有更智能的架構。 AI 的未來不是更大的注意力,而是更智能的注意力。