Крипто-копілоти повинні вміти логічно орієнтуватися на змінні ринки. Це означає більш жорсткі, орієнтовані на виробництво еталонні показники. CryptoAnalystBench допомагає просувати логіку відкритого ШІ, оцінюючи довгі криптовідповіді за релевантністю, часовою релевантністю, глибиною та узгодженістю 🧵 даних
2/ Цей орієнтир важливий, бо мислення ламається в швидкозмінних умовах Більшість оцінок перевіряють, чи може модель отримувати факти. У крипто користувачам потрібна послідовна позиція, коли сигнали конфліктують, змінюються часові вікна і джерела не погоджуються. Якщо ви не виміряєте цей синтез, ви відправляєте других пілотів, які звучать правдоподібно, а потім дрейфуєте, суперечите собі і вводите в оману рішення. CryptoAnalystBench оцінює довгі аналітичні відповіді за релевантністю, глибиною, тимчасовою релевантністю та узгодженістю даних, надаючи командам повторювану базу для ітераційного та регресійного тестування. Вона також проявляється там, де агенти ламаються на практиці: застаріле обрання, поверхневий синтез, внутрішні суперечності та надмірно впевнені твердження. CryptoAnalystBench створений для доповнення базових набір істини, таких як DMind і CryptoBench, з окремими перевірками фактичності для точності рівня тверджень.
3/ Ми створили CryptoAnalystBench, концентруючи виробничий трафік у компактний набір даних Ми почали з нещодавнього перегляду запитів у Sentient Chat і прибрали підказки, які були або надто довгими для послідовної оцінки, або занадто короткими, щоб відображати справжні наміри. Потім ми згрупували решту приблизно у 2 000 груп намірів, визначили 11 категорій, а штучний інтелект позначив кожен запит, щоб покриття залишалося узгодженим із реальним попитом користувачів. Далі ми видаляли майже дублікати в кожній категорії, вирізали «легкі» підказки, на які моделі можуть відповідати лише з навчання, і підготували репрезентативний фінальний знімок для оцінки.
4/ Наші вибір дизайну набору даних визначає, які несправності ви можете знайти Майже дублікати збільшують бали без покращення покриття. Прості підказки приховують помилки інструментів і синтезу. Ми розробили CryptoAnalystBench, щоб зберігати різноманітність, зберігати реальні пропорції трафіку та зберігати стабільність за часом, щоб він ловив дрейф і регреси, а не винагороджував запам'ятовування.
5/ Контур оцінки створений для відтворюваних ітерацій Ми оцінюємо кожну відповідь суддею LLM, використовуючи фіксовану рубрику та лише JSON-результати, не розкриваючи, яка система дала яку відповідь. Ми обрали DeepSeek v3.1 через Fireworks після тестування на упередження, потім контрольовану дисперсію з рандомізацією збалансованого порядку відповіді та спільною розмовою з суддею для кожного запиту, щоб зменшити дрейф калібрування. Результат — це те, що команди розробників мають ітерувати: бали за виміром, рейтинги за запитом і категорії для регресійного тестування та цільових виправлень. Це також чітко вказує на обмеження: висока якість аналітиків все ще може приховувати галюциновані числові призначення або неправильні твердження. Наступні кроки — підтримувати бенчмарк свіжим на рівні каденції та поєднувати його з локалізацією помилок на основі слідів та перевірками фактологічності, обмеженими доказами.
74