DeepSeek właśnie przeprowadził aktualizację, jakiej każdy model rozumowania udawał, że ma. Zamiast wyrzucać długą sekwencję myśli i mieć nadzieję, że ma sens, DeepSeek Math V2 przeprowadza pełne przesłuchanie swojej logiki. Buduje dowód, atakuje go, sprawdza atak, sprawdza sprawdzającego, naprawia błędy i powtarza, aż nie będzie w stanie się złamać. Ten jeden pomysł całkowicie zmienił jego wydajność. Oto, co ten poziom samokontroli wyprodukował: • Wydajność na poziomie złota na IMO 2025 • Wydajność na poziomie złota na CMO 2024 • 118/120 na Putnam 2024, najwyższy zgłoszony wynik • Lepsze wyniki niż GPT-5 Thinking i Gemini 2.5 Pro w najtrudniejszych kategoriach Sekret nie tkwi w skali. To architektura wokół modelu: — weryfikator, który poluje na luki logiczne — meta-weryfikator, który kwestionuje weryfikatora — generator dowodów warunkowany, aby unikać słabego rozumowania — pętla, która zmusza każdą część systemu do stawania się ostrzejszą Proces działa jak młynek: - Produkuj dowód - Testuj go - Testuj testera - Naprawiaj rozumowanie - Powtarzaj Skupili się na prawdziwym problemie w rozumowaniu matematycznym: model może trafić w poprawną odpowiedź z niewłaściwych powodów. Dlatego DeepSeek wytrenował weryfikatora, który ocenia rozumowanie, a nie wyniki....