Vår Aleph-bevisagent nådde nettopp #1 på PutnamBench, en referanse bygget på Putnam-oppgaver – en av de vanskeligste matematikkolympiadene på høyskolenivå – fullstendig formalisert med maskinkontrollerte bevis og uten menneskelig involvering. Putnam-oppgaver regnes ofte som vanskeligere enn IMO-oppgaver og dekker et bredt spekter av emner, inkludert kalkulus, tallteori, gruppeteori og andre kjerneområder innen matematikk. Dette er sterke bevis på at KI kan håndtere dyp, flertrinns resonnement med korrekthetsgarantier — samme type teknologi vi bruker for å verifisere ekte programvare, maskinvare og vitenskapelige oppdagelser som krever formell logikk.