Onze Aleph prover agent heeft net de #1 positie bereikt op PutnamBench, een benchmark opgebouwd uit Putnam-problemen - een van de moeilijkste wiskunde-olympiades op universitair niveau - volledig geformaliseerd met machine-gecontroleerde bewijzen en zonder menselijke betrokkenheid. Putnam-problemen worden vaak als moeilijker beschouwd dan IMO-problemen en bestrijken een breed scala aan onderwerpen, waaronder calculus, getaltheorie, groepstheorie en andere kerngebieden van de wiskunde. Dit is sterk bewijs dat AI in staat is tot diepgaande, meerstaps redenering met garanties voor correctheid — dezelfde soort technologie die we gebruiken om echte software, hardware en wetenschappelijke ontdekkingen te verifiëren die formele logica vereisen.