🚨 DeepSeek vừa làm điều gì đó điên rồ. Họ đã xây dựng một mô hình toán học không chỉ giải quyết vấn đề, mà còn kiểm tra các chứng minh của chính nó, tự phê bình, sửa chữa logic và thử lại cho đến khi không thể tìm thấy một lỗi nào. Phần cuối cùng đó là bước đột phá của một mô hình có thể xác minh lý luận của chính nó trước khi bạn xác minh. Và kết quả thật đáng kinh ngạc: • Hiệu suất cấp vàng trên IMO 2025 • Hiệu suất cấp vàng trên CMO 2024 • 118/120 trên Putnam 2024 gần như hoàn hảo, vượt qua mọi điểm số của con người • Vượt trội hơn GPT-5 Thinking và Gemini 2.5 Pro trong các hạng mục khó nhất Điều làm cho DeepSeek Math V2 điên rồ không phải là độ chính xác, mà là kiến trúc đứng sau nó. Họ không theo đuổi các mô hình lớn hơn hay chuỗi suy nghĩ dài hơn. Họ đã xây dựng một hệ sinh thái: ✓ một trình xác minh chuyên dụng tìm kiếm các khoảng trống logic ✓ một trình xác minh meta kiểm tra xem trình xác minh có đang ảo tưởng hay không ✓ một trình tạo chứng minh học cách sợ lý luận kém ✓ và một vòng lặp đào tạo nơi mô hình liên tục tạo ra các chứng minh khó hơn buộc trình xác minh phải tiến hóa Chu trình này thật khắc nghiệt: Tạo ra → Xác minh → Xác minh meta → Sửa chữa → Lặp lại. Vấn đề cốt lõi họ đã giải quyết: độ chính xác của câu trả lời cuối cùng không có nghĩa lý gì trong việc chứng minh định lý. Bạn có thể có số đúng với logic rác. Vì vậy, họ đã đào tạo một trình xác minh để đánh giá chứng minh chính nó, không phải câu trả lời cuối cùng. ...