Páni! DeepSeekMath-V2 Architektura generátor-ověřovatel znovu! ... Směrem k samoověřitelné matematické logice zkoumáme, jak trénovat přesný a věrný ověřovatel založený na LLM pro dokazování vět. Poté trénujeme generátor důkazů pomocí ověřovatele jako modelu odměn a motivujeme generátor, aby identifikoval a vyřešil co nejvíce problémů ve svých vlastních důkazech před jejich finalizací. Abychom udrželi rozdíl mezi generací a ověřením, jak generátor sílí, navrhujeme škálovat ověřovací výpočty tak, aby automaticky označovaly nové těžko ověřitelné důkazy a vytvářely trénovací data pro další zlepšení ověřovatele. Náš výsledný model, DeepSeekMath-V2, prokazuje silné schopnosti dokazování vět, dosahuje zlatých výsledků na IMO 2025 a CMO 2024 a téměř dokonalých 118/120 na Putnam 2024 s výpočtem škálovaného testovacího času. Ačkoliv je před námi mnoho práce, tyto výsledky naznačují, že samoověřitelné matematické uvažování je reálným směrem výzkumu, který může pomoci vyvinout schopnější matematické AI systémy.