Многие люди сбиты с толку недавним возвращением Minimax в полный фокус - особенно поскольку это был первый крупномасштабный переход к гибридному линейному вниманию - и поздним принятием Кими гибридных линейных вариантов (а также более ранними попытками Qwen3-Next или Qwen3.5). Мне на самом деле нравится открытость Minimax в этом вопросе: они признали проблемы и сожаления по поводу гибридного линейного или скользящего окна внимания в задачах многопроходного рассуждения, о которых не многие лаборатории сказали бы вслух. Тем не менее, «сожаления» могут быть не такими уж плохими, как они звучат. Minimax использовал очень простой вариант линейного внимания (в значительной степени из-за недостаточной оценки в то время), поэтому разрыв в производительности, вероятно, был преувеличен. Стратегия непрерывного предварительного обучения (т.е. переход от глобального внимания к гибридному скользящему окну внимания) также казалась довольно неоптимальной. И насколько я знаю, гибридное линейное внимание все еще может показывать очень сильные результаты почти по всем бенчмаркам, кроме многопроходного рассуждения. Если падение производительности в многопроходном рассуждении можно удержать достаточно малым, чтобы обменять его на лучшую эффективность вывода и эффективность данных, гибридное линейное внимание все еще имеет много возможностей для роста. Лучшие слои с линейной сложностью все еще стоит исследовать, особенно с улучшением инфраструктуры от таких фреймворков, как vLLM и SGLang. В конце концов, мы не хотим, чтобы наши агентные модели были навсегда ограничены длиной контекста - это ограничение, которое нам придется преодолеть рано или поздно.