Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wow! DeepSeekMath-V2
Architettura Generatore-Verificatore di nuovo!
... Verso un ragionamento matematico auto-verificabile, indaghiamo su come addestrare un verificatore basato su LLM accurato e fedele per la dimostrazione di teoremi. Addestriamo quindi un generatore di prove utilizzando il verificatore come modello di ricompensa, e incentiviamo il generatore a identificare e risolvere il maggior numero possibile di problemi nelle proprie prove prima di finalizzarle. Per mantenere il divario generazione-verifica man mano che il generatore diventa più forte, proponiamo di scalare il calcolo di verifica per etichettare automaticamente nuove prove difficili da verificare, creando dati di addestramento per migliorare ulteriormente il verificatore. Il nostro modello risultante, DeepSeekMath-V2, dimostra forti capacità di dimostrazione di teoremi, raggiungendo punteggi di livello oro su IMO 2025 e CMO 2024 e un quasi perfetto 118/120 su Putnam 2024 con calcolo di test-time scalato. Sebbene ci sia ancora molto lavoro da fare, questi risultati suggeriscono che il ragionamento matematico auto-verificabile è una direzione di ricerca fattibile che potrebbe aiutare a sviluppare sistemi di intelligenza artificiale matematica più capaci.

Principali
Ranking
Preferiti

