🚨Kinas DeepSeek har precis släppt den enda open source-modellen som är tillräckligt bra på matematik för att vinna enligt IMO Gold, och en rapport som man måste läsa! Nyckelidén hämtar inspiration från saker som Karpathy och andra har talat om: gå bortom "slutgiltigt svar i verkligheten" till en generator–verifierare–meta-verifierare-loop i rent språk. – En verifierare är RL-tränad att poängsätta bevis. – En meta-verifierare kontrollerar verifierarens kritik. – En generator är RL-tränad på verifierarbelöningssignaler för att skriva och självkontrollera bättre bevis. Eftersom allt lever i naturligt språk (ingen Lean), BÖR detta recept gälla många verifierbara områden: vetenskap, kod, var som helst där det är lättare att kontrollera än att lösa!