Nosso agente provador Aleph acabou de alcançar o #1 no PutnamBench, um benchmark construído a partir dos problemas do Putnam - uma das olimpíadas matemáticas universitárias mais difíceis - totalmente formalizado com provas verificadas por máquina e sem envolvimento humano. Problemas de Putnam são frequentemente considerados mais difíceis do que os problemas da IMO e abrangem uma ampla gama de tópicos, incluindo cálculo, teoria dos números, teoria dos grupos e outras áreas centrais da matemática. Essa é uma forte evidência de que a IA pode lidar com raciocínio profundo e em múltiplas etapas com garantias de correção — o mesmo tipo de tecnologia que usamos para verificar softwares, hardwares e descobertas científicas reais que exigem lógica formal.