Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨DeepSeek din China tocmai a lansat singurul model open-source suficient de bun la matematică pentru a câștiga, după părerea mea, aurul, și un raport obligatoriu!
Ideea cheie se bazează pe lucruri despre care Karpathy și alții au vorbit: să trecem dincolo de "răspunsul final RL" într-un ciclu generator–verificator–meta-verificator în limbaj pur.
– Un verificator este antrenat în RL pentru a evalua demonstrațiile.
– Un meta-verificator verifică criticile verificatorului.
– Un generator este antrenat RL pe semnale de recompensă ale verificatorilor pentru a scrie și auto-verifica demonstrații mai bune.
Pentru că totul trăiește în limbaj natural (fără Lean), această rețetă AR TREBUI să se extindă în multe domenii verificabile: știință, cod, oriunde verificarea este mai ușoară decât rezolvarea!

Limită superioară
Clasament
Favorite

