Ho adottato un approccio simile a Generatore-Verificatore per l'uso dei modelli nella ricerca in fisica teorica. Gli esperti umani all'avanguardia della scienza possono migliorare i modelli Verificatori fino al punto in cui l'operazione autonoma è estremamente forte anche su problemi di ricerca del mondo reale (non solo problemi matematici artificiosi = problemi ben posti che possono essere risolti in un tempo finito dagli esseri umani). DeepSeekMathV2 Sinergia tra Generatore e Verificatore Il generatore di prove e il verificatore formano un ciclo di feedback auto-migliorante. Man mano che il generatore produce prove sempre più complesse, queste sfidano il verificatore, esponendo debolezze che diventano nuovi dati di addestramento. Inizialmente, esperti umani guidavano il riaddestramento del verificatore esaminando i problemi segnalati — un processo reso efficiente generando più tentativi di verifica per ogni prova. Questa "meta-verifica" (controllare i risultati del verificatore piuttosto che le prove direttamente) si è rivelata sia più facile per gli esseri umani che più apprendibile per i LLM. Aumentando il numero di analisi del verificatore e addestrando su queste annotazioni assistite dall'AI, il verificatore ha infine raggiunto un livello di affidabilità in cui l'intervento umano non era più necessario nelle esecuzioni finali — chiudendo il ciclo tra generazione automatizzata di prove e verifica.
steve hsu
steve hsu28 nov, 01:26
Wow! DeepSeekMath-V2 Architettura Generatore-Verificatore di nuovo! ... Verso un ragionamento matematico auto-verificabile, indaghiamo su come addestrare un verificatore basato su LLM accurato e fedele per la dimostrazione di teoremi. Addestriamo quindi un generatore di prove utilizzando il verificatore come modello di ricompensa, e incentiviamo il generatore a identificare e risolvere il maggior numero possibile di problemi nelle proprie prove prima di finalizzarle. Per mantenere il divario generazione-verifica man mano che il generatore diventa più forte, proponiamo di scalare il calcolo di verifica per etichettare automaticamente nuove prove difficili da verificare, creando dati di addestramento per migliorare ulteriormente il verificatore. Il nostro modello risultante, DeepSeekMath-V2, dimostra forti capacità di dimostrazione di teoremi, raggiungendo punteggi di livello oro su IMO 2025 e CMO 2024 e un quasi perfetto 118/120 su Putnam 2024 con calcolo di test-time scalato. Sebbene ci sia ancora molto lavoro da fare, questi risultati suggeriscono che il ragionamento matematico auto-verificabile è una direzione di ricerca fattibile che potrebbe aiutare a sviluppare sistemi di intelligenza artificiale matematica più capaci.
Questo descrive la transizione da un pipeline di Generatore-Verificatore di base che utilizza modelli pronti all'uso, a uno in cui il Verificatore stesso è stato migliorato grazie ai dati di addestramento di esperti umani utilizzati nella meta-verifica.
1,96K