Náš agent dokazovačů v Alephu právě dosáhl #1 na PutnamBench, benchmarku postaveném na Putnamových úlohách – jedné z nejtěžších matematických olympiád na vysoké škole – plně formalizované s důkazy ověřenými strojem a bez lidského zapojení. Putnamovy úlohy jsou často považovány za obtížnější než problémy IMO a pokrývají širokou škálu témat, včetně kalkulu, teorie čísel, teorie grup a dalších základních oblastí matematiky. To je silný důkaz, že AI zvládne hluboké, vícestupňové uvažování s garantovanými správnostmi — stejnou technologii, kterou používáme k ověřování skutečného softwaru, hardwaru a vědeckých objevů vyžadujících formální logiku.