DApp Store | Web3 Hub for hendelser og spill

Populære emner

Hvor godt forutsier moderne LLM-er fremtiden? De testet på ~300 Kalshi-prediksjonsmarkeder. Claude Opus 4.5 presterte best. Dens Brier-score (et mål på gjennomsnittlig kvadratisk feil for prediksjonssannsynligheter) på ~0,23 ligger fortsatt over menneskelige superprognoser (0,15–0,2), men nærmer seg den.

De brukte oktober-november 2025. Gemini 3 Pro ble ikke sammenlignet, men GPT 5.2 XHigh skuffet. Kilde:

(ForecastBench er også et forsøk på dette, men er utdatert og har ikke de nye modellene)

273

Topp

Rangering

Favoritter