Наскільки добре сучасні LLM прогнозують майбутнє? Вони тестували на ~300 ринках прогнозування Kalshi. Клод Опус 4.5 показав найкращі результати. Його оцінка Брієра (показник середньої квадратної похибки ймовірностей) ~0,23 досі порівняно з людськими суперсиноптиками (0,15-0,2), але наближається до нього.
Вони використовували жовтень-листопад 2025 року. Gemini 3 Pro не порівнювали, але GPT 5.2 XHigh розчарував. Джерело:
(ForecastBench теж є спробою зробити це, але він застарілий і не має нових моделей)
274