Chúa ơi... Bài báo này giải thích một cách âm thầm lý do tại sao hầu hết các mô hình "lập luận" sụp đổ ngay khi bạn ngắt kết nối chúng khỏi các tiêu chuẩn sạch và thả chúng vào thế giới thực. Nhóm LongCat giải quyết một câu hỏi mà lĩnh vực này luôn lảng tránh: nếu các mô hình ngày nay giỏi lập luận đến vậy, tại sao chúng vẫn thất bại trong hành vi cơ bản của tác nhân khi công cụ hỏng, hướng dẫn trở nên mơ hồ, hoặc môi trường phản kháng? Câu trả lời của họ thật khó chịu. Lập luận không thất bại vì chuỗi suy nghĩ quá ngắn. Nó thất bại vì chúng ta đã đào tạo tư duy mà không có hậu quả. Bài báo giới thiệu LongCat-Flash-Thinking-2601, một mô hình Mixture-of-Experts với 560B tham số được xây dựng xung quanh một ý tưởng đơn giản nhưng cấp tiến: lập luận chỉ trở nên đáng tin cậy khi nó bị buộc phải hành động, quan sát thất bại và thích nghi trong các môi trường thực tế. Thay vì coi lập luận như là tạo ra văn bản, họ định hình nó như một vòng lặp: quan sát → lập kế hoạch → hành động → nhận phản hồi → sửa đổi. Sự thay đổi đó lan tỏa khắp nơi. Dữ liệu không còn là các gợi ý tĩnh nữa. Đào tạo không còn là các quỹ đạo sạch. Đánh giá không còn là các câu trả lời đơn lẻ. Một trong những đóng góp quan trọng nhất là mở rộng môi trường. Các tác giả tự động tạo ra hơn 10.000 môi trường có thể thực thi trên hơn 20 lĩnh vực, mỗi môi trường được gắn với các công cụ thực, cơ sở dữ liệu thực và nhiều con đường giải pháp hợp lệ. Độ khó tăng lên một cách cấu trúc, không phải bằng các mẹo gợi ý thông minh. Điều quan trọng là, họ không làm sạch thế giới. Các lỗi công cụ, hướng dẫn mơ hồ, đầu ra một phần và phản hồi ồn ào được cố ý tiêm vào. Tiếng ồn không phải là một lỗi. Nó là chương trình giảng dạy. Để giữ cho việc đào tạo ổn định ở quy mô này, họ mở rộng RL không đồng bộ (DORA) để xử lý các tương tác dài hạn, nhiều lượt với hàng chục nghìn môi trường đồng thời mà không bị sụp đổ. Tại thời điểm suy diễn, họ giới thiệu Chế độ Suy nghĩ Nặng. Thay vì một chuỗi suy nghĩ dài, mô hình chạy các con đường lập luận song song và sau đó phản ánh qua chúng trước khi hành động. Điều này nhất quán vượt qua tính tự nhất quán trong các nhiệm vụ phức tạp, có tính tác nhân. Các kết quả nói lên rất nhiều. Hiệu suất hàng đầu trong BrowseComp, τ²-Bench và VitaBench. Kết quả toán học, lập trình và tìm kiếm mạnh mẽ. Và quan trọng nhất, giảm thiểu sự suy giảm dưới các điều kiện ồn ào. Điều thực sự rút ra sắc nét hơn bất kỳ con số tiêu chuẩn nào: Chất lượng lập luận không còn là nút thắt cổ chai. Sự tổng quát mới là. Và sự tổng quát không đến từ các gợi ý tốt hơn hay những suy nghĩ dài hơn. Nó đến từ các môi trường phản kháng....