Наш агент Aleph prover только что занял 1-е место в PutnamBench, бенчмарке, созданном на основе задач Putnam — одной из самых сложных математических олимпиад для студентов — полностью формализованном с машинно проверенными доказательствами и без человеческого участия. Задачи Putnam часто считаются более сложными, чем задачи IMO, и охватывают широкий спектр тем, включая анализ, теорию чисел, теорию групп и другие основные области математики. Это сильное доказательство того, что AI может справляться с глубоким, многоступенчатым рассуждением с гарантией корректности — той же технологией, которую мы используем для проверки реального программного обеспечения, аппаратного обеспечения и научных открытий, требующих формальной логики.