Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
Дослідження міркувань @OpenAI | Співавтор надлюдських покерних AI Libratus/Pluribus, CICERO Diplomacy AI та OpenAI o3 / o1 / 🍓 міркувань
Під час святкових канікул я вибрав відкритий розв'язувач для покеру River. Код на 100% написаний Codex, і я також зробив версію з Claude Code для порівняння.
Загалом ці інструменти дозволили мені набагато швидше ітерувати в добре знайомій мені сфері. Але я також відчував, що не можу повністю їм довіряти. Вони робили помилки і стикалися з багами, але замість того, щоб це визнавати, часто думали, що це не велика проблема, або просто намагалися просто газлайтити мене, змусивши думати, що все гаразд.
Під час однієї пам'ятної сесії налагодження з Claude Code я запитав його, як перевірку здорового глузду, яка очікувана цінність стратегії «завжди скидати», коли у гравця є $100 у банку. Він повідомив, що за алгоритмом електромобіль коштує -$93. Коли я вказав, наскільки це дивно, сподіваючись, що він сам зрозуміє, що є баг, мене заспокоїли, що $93 — це майже $100, тож, мабуть, це нормально. (Коли я запропонував йому спеціально розглядати блокатори як потенційну проблему, він визнав, що алгоритм справді неправильно їх враховує.) Codex не був набагато кращим у цьому плані і зіткнувся з власним набором (цікаво) окремих багів і алгоритмічних помилок, які мені довелося ретельно опрацьовувати. На щастя, мені вдалося розібратися з цим, бо я експерт із покерних розв'язків, але не думаю, що багато інших людей могли б створити цей розв'язувач за допомогою інструментів програмування на основі ШІ.
Найфруструючим досвідом було створення графічного інтерфейсу. Після десятка перепалок ні Codex, ні Claude Code не змогли отримати той фронтенд, який я просив, хоча у Claude Code був принаймні гарніший. Я недосвідчений у фронтенді, тож, можливо, те, що я просив, просто було неможливим, але якби це було так, я б хотів, щоб вони *сказали* мені, що це складно або неможливо, замість того, щоб постійно робити зламані реалізації або те, чого я не просив. Це підкреслило мені, наскільки велика різниця між роботою з людським товаришем і роботою з ШІ.
Після завершення та налагодження початкових реалізацій я попросив Codex і Claude Code створити оптимізовані версії для C++. У цьому Codex показала дивовижні результати. Її версія на C++ була в 6 разів швидшою за Claude Code (навіть після кількох ітерацій запитів щодо подальших оптимізацій). Оптимізації Codex все ще були гіршими, ніж те, що я міг зробити, але я провів 6 років PhD, створюючи покерних ботів. В цілому, я вважаю, що Codex зробили вражаючу роботу над цим.
Моє останнє прохання було — запитати ШІ, чи можуть вони розробити нові алгоритми, які могли б ще швидше розв'язати річки NLTH. Жодному з них це не вдалося, що не дивно. LLM швидко стають кращими, але розробка нових алгоритмів для такого роду — це багатомісячний дослідницький проєкт для людського експерта. LLM ще не досягли цього рівня.

970
Важливий урок, який ARC-AGI засвоїла, але мало хто інший, полягає в тому, що продуктивність бенчмарку залежить від обчислень під час тестування.
@OpenAI публікує результати бенчмарку з одним числом, бо це простіше і люди очікують їх побачити, але ідеально було б, якби всі оцінки мали вісь x.

ARC Prize12 груд. 2025 р.
Рік тому ми перевірили прев'ю невиданої версії @OpenAI o3 (High), яка набрала 88% на ARC-AGI-1 за оцінкою $4.5k за завдання
Сьогодні ми підтвердили новий GPT-5.2 Pro (X-High) SOTA-бал 90,5% на рівні $11,64/завдання
Це означає ~390-кратне підвищення ефективності за один рік

450
Найкращі
Рейтинг
Вибране
