Matt Maher testete Grenzmodelle in Cursor v. anderen Harnesses. Cursor steigerte die Modellleistung im Durchschnitt um 11%: Gemini: 52% → 57% GPT-5.4: 82% → 88% Opus: 77% → 93% Sein Benchmark misst, wie gut Modelle ein 100-Feature-PRD implementieren. @cursor_ai übertraf konstant.