Вау, AI может учиться на документе, пока читает его? Исследователи из Astera Institute, NVIDIA и других представляют новый метод, который рассматривает моделирование длинного контекста как проблему непрерывного обучения. Они используют стандартный Transformer, но он "изучает" текст в реальном времени через предсказание следующего токена, сжимая контекст в свои собственные параметры. Он превосходит модели, такие как Mamba 2 и Gated DeltaNet, в масштабировании на длинные контексты, при этом он в 2.7 раза быстрее полного внимания для 128K входов. Обучение в режиме реального времени от начала до конца для длинного контекста Статья: