Notre agent de preuve Aleph vient d'atteindre la première place sur PutnamBench, un benchmark construit à partir des problèmes de Putnam - l'un des olympiades de mathématiques de niveau universitaire les plus difficiles - entièrement formalisé avec des preuves vérifiées par machine et sans intervention humaine. Les problèmes de Putnam sont souvent considérés comme plus difficiles que les problèmes de l'IMO et couvrent un large éventail de sujets, y compris le calcul, la théorie des nombres, la théorie des groupes et d'autres domaines fondamentaux des mathématiques. C'est une preuve solide que l'IA peut gérer un raisonnement profond et multi-étapes avec des garanties de correction — le même type de technologie que nous utilisons pour vérifier des logiciels réels, du matériel et des découvertes scientifiques qui nécessitent une logique formelle.