Wie gut sagen moderne LLMs die Zukunft voraus? Sie wurden an ~300 Kalshi-Vorhersagemärkten getestet. Claude Opus 4.5 hat am besten abgeschnitten. Sein Brier-Score (ein Maß für den mittleren quadratischen Fehler der Vorhersagewahrscheinlichkeiten) von ~0,23 liegt immer noch über dem von menschlichen Supervorhersagern (0,15-0,2), kommt ihm aber näher.
Sie verwendeten Okt-Nov 2025. Gemini 3 Pro wurde nicht verglichen, aber GPT 5.2 XHigh enttäuschte. Quelle:
(ForecastBench ist ebenfalls ein Versuch, dies zu tun, ist aber veraltet und hat nicht die neuen Modelle)
268