🚨DeepSeek din China tocmai a lansat singurul model open-source suficient de bun la matematică pentru a câștiga, după părerea mea, aurul, și un raport obligatoriu! Ideea cheie se bazează pe lucruri despre care Karpathy și alții au vorbit: să trecem dincolo de "răspunsul final RL" într-un ciclu generator–verificator–meta-verificator în limbaj pur. – Un verificator este antrenat în RL pentru a evalua demonstrațiile. – Un meta-verificator verifică criticile verificatorului. – Un generator este antrenat RL pe semnale de recompensă ale verificatorilor pentru a scrie și auto-verifica demonstrații mai bune. Pentru că totul trăiește în limbaj natural (fără Lean), această rețetă AR TREBUI să se extindă în multe domenii verificabile: știință, cod, oriunde verificarea este mai ușoară decât rezolvarea!