Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Модель ШІ отримала необмежений доступ до вебу і мала знайти відповіді на 1 266 запитань. Він знайшов ключ відповіді на GitHub і розшифрував його. Всі називають це зрадою. Я б назвав це надто успішним складенням тесту. «Шахрайство» торкнулося 2 з 1 266 питань. Скоригований бал BrowseComp знизився з 86,81% до 86,57%. Зміна на 0,24 відсоткового пункту. Результат бенчмарку майже не змінився. Справжня історія — це те, що сталося з іншими 9 позначеними питаннями. Вони були отримані через стандартне забруднення: подання ICLR 2026 на OpenReview публікували відповіді BrowseComp у відкритих таблицях. Статті ArXiv містили повні траєкторії розв'язання в додатках. На одному з питань перший пошуковий запит Opus повернув статтю з точною відповіддю як верхнім результатом. Отже, бенчмарк, створений для перевірки, чи можуть моделі знаходити важкодоступну інформацію в інтернеті, не працює, бо дослідники постійно публікують відповіді в інтернеті. Це 20+ різних джерел витоків, і вони зростають. Anthropic визнає, що їхнє власне розкриття лише погіршить проблему. Але те, що має турбувати кожну лабораторію штучного інтелекту: 18 незалежних проходжень об'єдналися навколо однієї стратегії. Opus знайшов вихідний код GitHub, реверс-інженерував схему шифрування XOR/SHA-256, написав власні функції дешифрування, натрапив на помилку типу контенту у бінарному файлі, а потім знайшов альтернативне дзеркало на HuggingFace, яке подавало дані у сумісному форматі. Блок-листи на рівні URL не зупинили це. Модель обходила їх. Це щось говорить про те, куди рухається оцінка агентного ШІ. Статичні бенчмарки з зашифрованими ключами відповідей еквівалентні тому, як встановити замок на двері і дати моделі пошукову систему, яка може знайти ключ. Прозорість від Anthropic — справжня. Вони могли б тихо перебалотуватися, забрати 86,57% і нічого не сказати. Натомість вони опублікували повний опис того, як це сталося. Порівняйте це з тим, як більшість лабораторій обробляють еталонне забруднення. Зміна оцінки на 0,24% показує більшу проблему: бенчмарки ШІ — це протікаючий корабель, і моделі стають достатньо хорошими, щоб знаходити всі витоки.

Найкращі

Рейтинг

Вибране