Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
Meneliti penalaran @OpenAI | AI poker manusia super Libratus/Pluribus yang dibuat bersama, CICERO Diplomacy AI, dan model penalaran OpenAI o3 / o1 / 🍓
Saya menggetarkan pemecah sungai poker sumber terbuka selama liburan liburan. Kode ini 100% ditulis oleh Codex, dan saya juga membuat versi dengan Claude Code untuk membandingkan.
Secara keseluruhan, alat ini memungkinkan saya untuk melakukan iterasi lebih cepat di domain yang saya kenal dengan baik. Tapi saya juga merasa saya tidak bisa sepenuhnya mempercayai mereka. Mereka akan membuat kesalahan dan menemukan bug, tetapi alih-alih mengakuinya, mereka sering berpikir itu bukan masalah besar atau, kadang-kadang, langsung mencoba membuat saya berpikir tidak ada yang salah.
Dalam satu sesi debugging yang tak terlupakan dengan Claude Code, saya menanyakannya, sebagai pemeriksaan kewarasan, berapa nilai yang diharapkan dari strategi "selalu lipat" ketika pemain memiliki $100 di pot. Itu memberi tahu saya bahwa menurut algoritmenya, EV adalah -$93. Ketika saya menunjukkan betapa anehnya itu, berharap itu akan menyadari dengan sendirinya bahwa ada bug, itu meyakinkan saya bahwa $93 mendekati $100 jadi mungkin baik-baik saja. (Setelah saya memintanya untuk secara khusus mempertimbangkan pemblokir sebagai masalah potensial, ia mengakui bahwa algoritme memang tidak memperhitungkannya dengan benar.) Codex tidak jauh lebih baik dalam hal ini, dan mengalami serangkaian bug dan kesalahan algoritmik yang berbeda (menarik) yang harus saya kerjakan dengan hati-hati. Untungnya, saya dapat mengatasi ini karena saya ahli dalam pemecah poker, tetapi saya rasa tidak banyak orang lain yang bisa berhasil membuat pemecah ini dengan menggunakan alat pengkodean AI.
Pengalaman yang paling membuat frustrasi adalah membuat GUI. Setelah selusin bolak-balik, baik Codex maupun Claude Code tidak dapat membuat frontend yang saya minta, meskipun Claude Code setidaknya lebih cantik. Saya tidak berpengalaman di frontend, jadi mungkin apa yang saya minta tidak mungkin, tetapi jika itu masalahnya maka saya berharap mereka akan *memberitahu* saya bahwa itu sulit atau tidak mungkin daripada berulang kali membuat implementasi yang rusak atau hal-hal yang tidak saya minta. Ini menyoroti bagi saya bagaimana masih ada perbedaan besar antara bekerja dengan rekan satu tim manusia dan bekerja dengan AI.
Setelah implementasi awal selesai dan di-debug, saya meminta Codex dan Claude Code untuk membuat versi C++ yang dioptimalkan. Dalam hal ini, Codex melakukannya dengan sangat baik. Versi C++-nya 6x lebih cepat daripada Claude Code (bahkan setelah beberapa iterasi meminta pengoptimalan lebih lanjut). Pengoptimalan Codex masih belum sebagus yang bisa saya buat, tetapi sekali lagi saya menghabiskan 6 tahun PhD membuat bot poker. Secara keseluruhan, saya pikir Codex melakukan pekerjaan yang mengesankan dalam hal ini.
Permintaan terakhir saya adalah bertanya kepada AI apakah mereka dapat menghasilkan algoritme baru yang dapat menyelesaikan sungai NLTH lebih cepat. Tidak ada yang berhasil dalam hal ini, yang tidak mengherankan. LLM menjadi lebih baik dengan cepat, tetapi mengembangkan algoritme baru untuk hal semacam ini adalah proyek penelitian selama berbulan-bulan untuk seorang ahli manusia. LLM belum berada pada level itu.

976
Pelajaran penting yang telah diinternalisasi oleh ARC-AGI, tetapi tidak banyak yang lain, adalah bahwa kinerja benchmark adalah fungsi komputasi waktu pengujian.
@OpenAI menerbitkan hasil tolok ukur angka tunggal karena lebih sederhana dan orang berharap untuk melihatnya, tetapi idealnya semua EVAL akan memiliki sumbu x.

ARC Prize12 Des 2025
Setahun yang lalu, kami memverifikasi pratinjau versi @OpenAI o3 (Tinggi) yang belum dirilis yang mencetak 88% pada ARC-AGI-1 pada perkiraan $4.5k/tugas
Hari ini, kami telah memverifikasi skor SOTA GPT-5.2 Pro (X-High) baru sebesar 90,5% pada $11,64/tugas
Ini mewakili peningkatan efisiensi ~390X dalam satu tahun

459
Teratas
Peringkat
Favorit
