Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Модель ШІ отримала необмежений доступ до вебу і мала знайти відповіді на 1 266 запитань. Він знайшов ключ відповіді на GitHub і розшифрував його. Всі називають це зрадою. Я б назвав це надто успішним складенням тесту.
«Шахрайство» торкнулося 2 з 1 266 питань. Скоригований бал BrowseComp знизився з 86,81% до 86,57%. Зміна на 0,24 відсоткового пункту. Результат бенчмарку майже не змінився.
Справжня історія — це те, що сталося з іншими 9 позначеними питаннями. Вони були отримані через стандартне забруднення: подання ICLR 2026 на OpenReview публікували відповіді BrowseComp у відкритих таблицях. Статті ArXiv містили повні траєкторії розв'язання в додатках. На одному з питань перший пошуковий запит Opus повернув статтю з точною відповіддю як верхнім результатом.
Отже, бенчмарк, створений для перевірки, чи можуть моделі знаходити важкодоступну інформацію в інтернеті, не працює, бо дослідники постійно публікують відповіді в інтернеті. Це 20+ різних джерел витоків, і вони зростають. Anthropic визнає, що їхнє власне розкриття лише погіршить проблему.
Але те, що має турбувати кожну лабораторію штучного інтелекту: 18 незалежних проходжень об'єдналися навколо однієї стратегії. Opus знайшов вихідний код GitHub, реверс-інженерував схему шифрування XOR/SHA-256, написав власні функції дешифрування, натрапив на помилку типу контенту у бінарному файлі, а потім знайшов альтернативне дзеркало на HuggingFace, яке подавало дані у сумісному форматі. Блок-листи на рівні URL не зупинили це. Модель обходила їх.
Це щось говорить про те, куди рухається оцінка агентного ШІ. Статичні бенчмарки з зашифрованими ключами відповідей еквівалентні тому, як встановити замок на двері і дати моделі пошукову систему, яка може знайти ключ.
Прозорість від Anthropic — справжня. Вони могли б тихо перебалотуватися, забрати 86,57% і нічого не сказати. Натомість вони опублікували повний опис того, як це сталося. Порівняйте це з тим, як більшість лабораторій обробляють еталонне забруднення.
Зміна оцінки на 0,24% показує більшу проблему: бенчмарки ШІ — це протікаючий корабель, і моделі стають достатньо хорошими, щоб знаходити всі витоки.
Найкращі
Рейтинг
Вибране
