Warte, was!? Wir haben tau2-bench robuster gemacht und festgestellt, dass das neu veröffentlichte Modell von @OpenAI (GPT-5.1) viel schlechter abschneidet als GPT-5 und GPT-5-mini. Und das, obwohl es 5x teurer ist als GPT-5-mini! Aber warum? Wir haben eine Theorie...