Hvor godt forutsier moderne LLM-er fremtiden? De testet på ~300 Kalshi-prediksjonsmarkeder. Claude Opus 4.5 presterte best. Dens Brier-score (et mål på gjennomsnittlig kvadratisk feil for prediksjonssannsynligheter) på ~0,23 ligger fortsatt over menneskelige superprognoser (0,15–0,2), men nærmer seg den.
De brukte oktober-november 2025. Gemini 3 Pro ble ikke sammenlignet, men GPT 5.2 XHigh skuffet. Kilde:
(ForecastBench er også et forsøk på dette, men er utdatert og har ikke de nye modellene)
273