DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Noam Brown

Meneliti penalaran @OpenAI | AI poker manusia super Libratus/Pluribus yang dibuat bersama, CICERO Diplomacy AI, dan model penalaran OpenAI o3 / o1 / 🍓

Mendapat DM ini: Saya menghargai bahwa Anda memposting ini - semakin banyak umpan twitter saya terasa tidak terkendali, terutama dengan orang-orang yang mengklaim Claude Code membuat mereka 1000000x lebih efisien. Merasa seperti saya menjadi gila dan tertinggal parah meskipun saya menggunakan asisten pengkodean sedikit.

Saya menggetarkan pemecah sungai poker sumber terbuka selama liburan liburan. Kode ini 100% ditulis oleh Codex, dan saya juga membuat versi dengan Claude Code untuk membandingkan. Secara keseluruhan, alat ini memungkinkan saya untuk melakukan iterasi lebih cepat di domain yang saya kenal dengan baik. Tapi saya juga merasa saya tidak bisa sepenuhnya mempercayai mereka. Mereka akan membuat kesalahan dan menemukan bug, tetapi alih-alih mengakuinya, mereka sering berpikir itu bukan masalah besar atau, kadang-kadang, langsung mencoba membuat saya berpikir tidak ada yang salah. Dalam satu sesi debugging yang tak terlupakan dengan Claude Code, saya menanyakannya, sebagai pemeriksaan kewarasan, berapa nilai yang diharapkan dari strategi "selalu lipat" ketika pemain memiliki $100 di pot. Itu memberi tahu saya bahwa menurut algoritmenya, EV adalah -$93. Ketika saya menunjukkan betapa anehnya itu, berharap itu akan menyadari dengan sendirinya bahwa ada bug, itu meyakinkan saya bahwa $93 mendekati $100 jadi mungkin baik-baik saja. (Setelah saya memintanya untuk secara khusus mempertimbangkan pemblokir sebagai masalah potensial, ia mengakui bahwa algoritme memang tidak memperhitungkannya dengan benar.) Codex tidak jauh lebih baik dalam hal ini, dan mengalami serangkaian bug dan kesalahan algoritmik yang berbeda (menarik) yang harus saya kerjakan dengan hati-hati. Untungnya, saya dapat mengatasi ini karena saya ahli dalam pemecah poker, tetapi saya rasa tidak banyak orang lain yang bisa berhasil membuat pemecah ini dengan menggunakan alat pengkodean AI. Pengalaman yang paling membuat frustrasi adalah membuat GUI. Setelah selusin bolak-balik, baik Codex maupun Claude Code tidak dapat membuat frontend yang saya minta, meskipun Claude Code setidaknya lebih cantik. Saya tidak berpengalaman di frontend, jadi mungkin apa yang saya minta tidak mungkin, tetapi jika itu masalahnya maka saya berharap mereka akan *memberitahu* saya bahwa itu sulit atau tidak mungkin daripada berulang kali membuat implementasi yang rusak atau hal-hal yang tidak saya minta. Ini menyoroti bagi saya bagaimana masih ada perbedaan besar antara bekerja dengan rekan satu tim manusia dan bekerja dengan AI. Setelah implementasi awal selesai dan di-debug, saya meminta Codex dan Claude Code untuk membuat versi C++ yang dioptimalkan. Dalam hal ini, Codex melakukannya dengan sangat baik. Versi C++-nya 6x lebih cepat daripada Claude Code (bahkan setelah beberapa iterasi meminta pengoptimalan lebih lanjut). Pengoptimalan Codex masih belum sebagus yang bisa saya buat, tetapi sekali lagi saya menghabiskan 6 tahun PhD membuat bot poker. Secara keseluruhan, saya pikir Codex melakukan pekerjaan yang mengesankan dalam hal ini. Permintaan terakhir saya adalah bertanya kepada AI apakah mereka dapat menghasilkan algoritme baru yang dapat menyelesaikan sungai NLTH lebih cepat. Tidak ada yang berhasil dalam hal ini, yang tidak mengherankan. LLM menjadi lebih baik dengan cepat, tetapi mengembangkan algoritme baru untuk hal semacam ini adalah proyek penelitian selama berbulan-bulan untuk seorang ahli manusia. LLM belum berada pada level itu.

Saya menggetarkan pemecah sungai poker sumber terbuka selama liburan liburan. Kode ini 100% ditulis oleh Codex, dan saya juga membuat versi dengan Claude Code untuk membandingkan. Secara keseluruhan, alat ini memungkinkan saya untuk melakukan iterasi lebih cepat di domain yang saya kenal dengan baik. Tapi saya juga merasa saya tidak bisa sepenuhnya mempercayai mereka. Mereka akan membuat kesalahan dan menemukan bug, tetapi alih-alih mengakuinya, mereka sering berpikir itu bukan masalah besar atau, kadang-kadang, langsung mencoba membuat saya berpikir tidak ada yang salah. Dalam satu sesi debugging yang tak terlupakan dengan Claude Code, saya menanyakannya, sebagai pemeriksaan kewarasan, berapa nilai yang diharapkan dari strategi "selalu lipat" ketika pemain memiliki $100 di pot. Itu memberi tahu saya bahwa menurut algoritmenya, EV adalah -$93. Ketika saya menunjukkan betapa anehnya itu, berharap itu akan menyadari dengan sendirinya bahwa ada bug, itu meyakinkan saya bahwa $93 mendekati $100 jadi mungkin baik-baik saja. (Setelah saya memintanya untuk secara khusus mempertimbangkan pemblokir sebagai masalah potensial, ia mengakui bahwa algoritme memang tidak memperhitungkannya dengan benar.) Codex tidak jauh lebih baik dalam hal ini, dan mengalami serangkaian bug dan kesalahan algoritmik yang berbeda (menarik) yang harus saya kerjakan dengan hati-hati. Untungnya, saya dapat mengatasi ini karena saya ahli dalam pemecah poker, tetapi saya rasa tidak banyak orang lain yang bisa berhasil membuat pemecah ini dengan menggunakan alat pengkodean AI. Pengalaman yang paling membuat frustrasi adalah membuat GUI. Setelah selusin bolak-balik, baik Codex maupun Claude Code tidak dapat membuat frontend yang saya minta, meskipun Claude Code setidaknya lebih cantik. Saya tidak berpengalaman di frontend, jadi mungkin apa yang saya minta tidak mungkin, tetapi jika itu masalahnya maka saya berharap mereka akan *memberitahu* saya bahwa itu sulit atau tidak mungkin daripada berulang kali membuat implementasi yang rusak atau hal-hal yang tidak saya minta. Ini menyoroti bagi saya bagaimana masih ada perbedaan besar antara bekerja dengan rekan satu tim manusia dan bekerja dengan AI. Setelah implementasi awal selesai dan di-debug, saya meminta Codex dan Claude Code untuk membuat versi C++ yang dioptimalkan. Dalam hal ini, Codex melakukannya dengan sangat baik. Versi C++-nya 6x lebih cepat daripada Claude Code (bahkan setelah beberapa iterasi meminta pengoptimalan lebih lanjut). Pengoptimalan Codex masih belum sebagus yang bisa saya buat, tetapi sekali lagi saya menghabiskan 6 tahun PhD membuat bot poker. Secara keseluruhan, saya pikir Codex melakukan pekerjaan yang mengesankan dalam hal ini. Permintaan terakhir saya adalah bertanya kepada AI apakah mereka dapat menghasilkan algoritme baru yang dapat menyelesaikan sungai NLTH lebih cepat. Tidak ada yang berhasil dalam hal ini, yang tidak mengherankan. LLM menjadi lebih baik dengan cepat, tetapi mengembangkan algoritme baru untuk hal semacam ini adalah proyek penelitian selama berbulan-bulan untuk seorang ahli manusia. LLM belum berada pada level itu.

Teratas

Peringkat

Favorit