🚨Čínský DeepSeek právě zrušil jediný open-source model dostatečně dobrý v matematice, aby podle mě vyhrál zlato, a to je report, který si musíte přečíst! Klíčová myšlenka vychází z věcí, o kterých Karpathy a další mluvili: překročit hranici "konečné odpovědi RL" do smyčky generátor–ověřovatel–meta-ověřovač v čistém jazyce. – Ověřovatel je trénován RL pro skórování důkazů. – Meta-ověřovatel kontroluje kritiku ověřovatele. – Generátor je trénován RL na signálech odměny ověřovatele, aby psal a samokontroloval lepší důkazy. Protože vše žije v přirozeném jazyce (bez Lean), tento recept by se měl vztahovat na mnoho ověřitelných oblastí: vědu, kód, kamkoli, kde je kontrola jednodušší než řešení!