Agen pembuktian Aleph kami baru saja mencapai #1 di PutnamBench, tolok ukur yang dibangun dari masalah Putnam - salah satu olimpiade matematika tingkat perguruan tinggi yang paling sulit - sepenuhnya diresmikan dengan bukti yang diperiksa mesin dan tidak ada keterlibatan manusia. Masalah Putnam sering dianggap lebih sulit daripada masalah IMO dan mencakup berbagai topik, termasuk kalkulus, teori bilangan, teori kelompok, dan bidang inti matematika lainnya. Ini adalah bukti kuat bahwa AI dapat menangani penalaran multi-langkah yang mendalam dengan jaminan kebenaran — jenis teknologi yang sama yang kami gunakan untuk memverifikasi perangkat lunak, perangkat keras, dan penemuan ilmiah nyata yang membutuhkan logika formal.