Наш агент з перевірки Aleph щойно досяг #1 на PutnamBench — бенчмарку, побудованому на основі задач Putnam — однієї з найскладніших олімпіади з математики на рівні коледжу — повністю формалізованої з машинно перевіреними доказами без участі людини. Задачі Патнама часто вважаються складнішими, ніж задачі Мої Мо, і охоплюють широкий спектр тем, включно з математичним аналізом, теорією чисел, теорією груп та іншими основними галузями математики. Це переконливий доказ того, що ШІ може працювати з глибоким, багатокроковим міркуванням із гарантіями коректності — тією ж технологією, яку ми використовуємо для перевірки реального програмного забезпечення, апаратного забезпечення та наукових відкриттів, що потребують формальної логіки.