Nhiều người cảm thấy bối rối trước sự trở lại gần đây của Minimax với sự chú ý đầy đủ - đặc biệt là vì đây là sự chuyển hướng quy mô lớn đầu tiên sang sự chú ý tuyến tính lai - và bởi việc Kimi sau đó áp dụng các biến thể tuyến tính lai (cũng như những nỗ lực trước đó của Qwen3-Next, hay Qwen3.5). Tôi thực sự đánh giá cao sự cởi mở của Minimax ở đây: họ đã thừa nhận những thách thức và sự hối tiếc về sự chú ý tuyến tính lai hoặc sự chú ý cửa sổ trượt trong các nhiệm vụ lý luận đa bước, điều mà không nhiều phòng thí nghiệm sẽ nói ra một cách công khai. Nói vậy, những "sự hối tiếc" có thể không tệ như chúng nghe có vẻ. Minimax đã sử dụng một biến thể sự chú ý tuyến tính rất đơn giản (chủ yếu do đánh giá không đủ vào thời điểm đó), vì vậy khoảng cách hiệu suất có lẽ đã bị phóng đại. Chiến lược huấn luyện liên tục (tức là, chuyển từ sự chú ý toàn cầu sang sự chú ý cửa sổ trượt lai) cũng có vẻ khá không tối ưu. Và theo như tôi biết, sự chú ý tuyến tính lai vẫn có thể hoạt động rất mạnh trên hầu hết tất cả các tiêu chuẩn ngoại trừ lý luận đa bước. Nếu sự giảm hiệu suất trong lý luận đa bước có thể được giữ đủ nhỏ để đổi lấy hiệu quả suy diễn và hiệu quả dữ liệu tốt hơn, thì sự chú ý tuyến tính lai vẫn còn nhiều không gian để phát triển. Các lớp độ phức tạp tuyến tính tốt hơn vẫn đáng để khám phá, đặc biệt là với cơ sở hạ tầng đang cải thiện từ các khung như vLLM và SGLang. Cuối cùng, chúng ta không muốn các mô hình có khả năng của mình bị giới hạn mãi mãi bởi độ dài ngữ cảnh - đó là một hạn chế mà chúng ta sẽ phải vượt qua sớm hay muộn.