Agentul nostru Aleph Prover tocmai a ajuns pe locul #1 pe PutnamBench, un reper construit din problemele Putnam – una dintre cele mai dificile olimpiade de matematică la nivel universitar – complet formalizat, cu demonstrații verificate automat și fără implicare umană. Problemele Putnam sunt adesea considerate mai dificile decât problemele IMO și acoperă o gamă largă de subiecte, inclusiv calcul diferențial, teoria numerelor, teoria grupurilor și alte domenii de bază ale matematicii. Aceasta este o dovadă puternică că AI poate gestiona raționamente profunde, în mai mulți pași, cu garanții de corectitudine — același tip de tehnologie pe care o folosim pentru a verifica descoperirile reale de software, hardware și știință care necesită logică formală.