Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Noam Brown

Дослідження міркувань @OpenAI | Співавтор надлюдських покерних AI Libratus/Pluribus, CICERO Diplomacy AI та OpenAI o3 / o1 / 🍓 міркувань

Отримав цей особистий повідомлення: Дякую, що ви це опублікували — моя стрічка у Twitter дедалі більше здається нестабільною, особливо коли люди стверджують, що Claude Code робить їх у 1000000 разів ефективнішими. Відчував, що сходжу з розуму і сильно відстаю, хоча часто користуюся помічниками програмування.

Під час святкових канікул я вибрав відкритий розв'язувач для покеру River. Код на 100% написаний Codex, і я також зробив версію з Claude Code для порівняння. Загалом ці інструменти дозволили мені набагато швидше ітерувати в добре знайомій мені сфері. Але я також відчував, що не можу повністю їм довіряти. Вони робили помилки і стикалися з багами, але замість того, щоб це визнавати, часто думали, що це не велика проблема, або просто намагалися просто газлайтити мене, змусивши думати, що все гаразд. Під час однієї пам'ятної сесії налагодження з Claude Code я запитав його, як перевірку здорового глузду, яка очікувана цінність стратегії «завжди скидати», коли у гравця є $100 у банку. Він повідомив, що за алгоритмом електромобіль коштує -$93. Коли я вказав, наскільки це дивно, сподіваючись, що він сам зрозуміє, що є баг, мене заспокоїли, що $93 — це майже $100, тож, мабуть, це нормально. (Коли я запропонував йому спеціально розглядати блокатори як потенційну проблему, він визнав, що алгоритм справді неправильно їх враховує.) Codex не був набагато кращим у цьому плані і зіткнувся з власним набором (цікаво) окремих багів і алгоритмічних помилок, які мені довелося ретельно опрацьовувати. На щастя, мені вдалося розібратися з цим, бо я експерт із покерних розв'язків, але не думаю, що багато інших людей могли б створити цей розв'язувач за допомогою інструментів програмування на основі ШІ. Найфруструючим досвідом було створення графічного інтерфейсу. Після десятка перепалок ні Codex, ні Claude Code не змогли отримати той фронтенд, який я просив, хоча у Claude Code був принаймні гарніший. Я недосвідчений у фронтенді, тож, можливо, те, що я просив, просто було неможливим, але якби це було так, я б хотів, щоб вони *сказали* мені, що це складно або неможливо, замість того, щоб постійно робити зламані реалізації або те, чого я не просив. Це підкреслило мені, наскільки велика різниця між роботою з людським товаришем і роботою з ШІ. Після завершення та налагодження початкових реалізацій я попросив Codex і Claude Code створити оптимізовані версії для C++. У цьому Codex показала дивовижні результати. Її версія на C++ була в 6 разів швидшою за Claude Code (навіть після кількох ітерацій запитів щодо подальших оптимізацій). Оптимізації Codex все ще були гіршими, ніж те, що я міг зробити, але я провів 6 років PhD, створюючи покерних ботів. В цілому, я вважаю, що Codex зробили вражаючу роботу над цим. Моє останнє прохання було — запитати ШІ, чи можуть вони розробити нові алгоритми, які могли б ще швидше розв'язати річки NLTH. Жодному з них це не вдалося, що не дивно. LLM швидко стають кращими, але розробка нових алгоритмів для такого роду — це багатомісячний дослідницький проєкт для людського експерта. LLM ще не досягли цього рівня.

Під час святкових канікул я вибрав відкритий розв'язувач для покеру River. Код на 100% написаний Codex, і я також зробив версію з Claude Code для порівняння. Загалом ці інструменти дозволили мені набагато швидше ітерувати в добре знайомій мені сфері. Але я також відчував, що не можу повністю їм довіряти. Вони робили помилки і стикалися з багами, але замість того, щоб це визнавати, часто думали, що це не велика проблема, або просто намагалися просто газлайтити мене, змусивши думати, що все гаразд. Під час однієї пам'ятної сесії налагодження з Claude Code я запитав його, як перевірку здорового глузду, яка очікувана цінність стратегії «завжди скидати», коли у гравця є $100 у банку. Він повідомив, що за алгоритмом електромобіль коштує -$93. Коли я вказав, наскільки це дивно, сподіваючись, що він сам зрозуміє, що є баг, мене заспокоїли, що $93 — це майже $100, тож, мабуть, це нормально. (Коли я запропонував йому спеціально розглядати блокатори як потенційну проблему, він визнав, що алгоритм справді неправильно їх враховує.) Codex не був набагато кращим у цьому плані і зіткнувся з власним набором (цікаво) окремих багів і алгоритмічних помилок, які мені довелося ретельно опрацьовувати. На щастя, мені вдалося розібратися з цим, бо я експерт із покерних розв'язків, але не думаю, що багато інших людей могли б створити цей розв'язувач за допомогою інструментів програмування на основі ШІ. Найфруструючим досвідом було створення графічного інтерфейсу. Після десятка перепалок ні Codex, ні Claude Code не змогли отримати той фронтенд, який я просив, хоча у Claude Code був принаймні гарніший. Я недосвідчений у фронтенді, тож, можливо, те, що я просив, просто було неможливим, але якби це було так, я б хотів, щоб вони *сказали* мені, що це складно або неможливо, замість того, щоб постійно робити зламані реалізації або те, чого я не просив. Це підкреслило мені, наскільки велика різниця між роботою з людським товаришем і роботою з ШІ. Після завершення та налагодження початкових реалізацій я попросив Codex і Claude Code створити оптимізовані версії для C++. У цьому Codex показала дивовижні результати. Її версія на C++ була в 6 разів швидшою за Claude Code (навіть після кількох ітерацій запитів щодо подальших оптимізацій). Оптимізації Codex все ще були гіршими, ніж те, що я міг зробити, але я провів 6 років PhD, створюючи покерних ботів. В цілому, я вважаю, що Codex зробили вражаючу роботу над цим. Моє останнє прохання було — запитати ШІ, чи можуть вони розробити нові алгоритми, які могли б ще швидше розв'язати річки NLTH. Жодному з них це не вдалося, що не дивно. LLM швидко стають кращими, але розробка нових алгоритмів для такого роду — це багатомісячний дослідницький проєкт для людського експерта. LLM ще не досягли цього рівня.

Найкращі

Рейтинг

Вибране