Насколько хорошо современные LLM предсказывают будущее? Они тестировались на ~300 рынках предсказаний Kalshi. Claude Opus 4.5 показал лучшие результаты. Его Brier Score (мерило среднеквадратичной ошибки предсказаний) составляет ~0.23, что все еще хуже, чем у человеческих суперпрогнозистов (0.15-0.2), но приближается к этому.
Они использовали октябрь-ноябрь 2025 года. Gemini 3 Pro не сравнивался, но GPT 5.2 XHigh разочаровал. Источник:
(ForecastBench также является попыткой сделать это, но устарел и не имеет новых моделей)
265