Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Насколько хорошо современные LLM предсказывают будущее? Они тестировались на ~300 рынках предсказаний Kalshi. Claude Opus 4.5 показал лучшие результаты. Его Brier Score (мерило среднеквадратичной ошибки предсказаний) составляет ~0.23, что все еще хуже, чем у человеческих суперпрогнозистов (0.15-0.2), но приближается к этому.

Они использовали октябрь-ноябрь 2025 года. Gemini 3 Pro не сравнивался, но GPT 5.2 XHigh разочаровал. Источник:

(ForecastBench также является попыткой сделать это, но устарел и не имеет новых моделей)

265

Топ

Рейтинг

Избранное