Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DeepSeek vừa thực hiện một bản nâng cấp mà mọi mô hình lý luận đều đã giả vờ có.
Thay vì đưa ra một chuỗi suy nghĩ dài và hy vọng nó có ý nghĩa, DeepSeek Math V2 thực hiện một cuộc thẩm vấn toàn diện về logic của chính nó. Nó xây dựng một bằng chứng, tấn công nó, kiểm tra cuộc tấn công, kiểm tra người kiểm tra, sửa chữa các lỗi, và lặp lại cho đến khi nó không thể tự phá vỡ nữa.
Ý tưởng đơn lẻ đó đã thay đổi hoàn toàn hiệu suất của nó.
Dưới đây là những gì mức độ tự kiểm tra đó đã sản xuất:
• Hiệu suất cấp vàng trên IMO 2025
• Hiệu suất cấp vàng trên CMO 2024
• 118/120 trên Putnam 2024, điểm số cao nhất được báo cáo
• Kết quả tốt hơn so với GPT-5 Thinking và Gemini 2.5 Pro ở các hạng mục khó nhất
Bí mật không phải là quy mô.
Mà là kiến trúc xung quanh mô hình:
— một người xác minh tìm kiếm các khoảng trống logic
— một người xác minh meta đặt câu hỏi cho người xác minh
— một trình tạo bằng chứng được điều kiện hóa để tránh lý luận yếu
— một vòng lặp buộc mọi phần của hệ thống phải sắc bén hơn
Quá trình hoạt động như một máy xay:
- Tạo ra một bằng chứng
- Kiểm tra nó
- Kiểm tra người kiểm tra
- Sửa chữa lý luận
- Lặp lại
Họ đã nhắm đến vấn đề thực sự trong lý luận toán học: một mô hình có thể đạt được câu trả lời đúng vì lý do sai. Vì vậy, DeepSeek đã đào tạo một người xác minh đánh giá lý luận, không phải kết quả....

Hàng đầu
Thứ hạng
Yêu thích

