Matt Maher testte frontier-modellen in Cursor v. andere harnassen. Cursor verbeterde de modelprestaties met gemiddeld 11%: Gemini: 52% → 57% GPT-5.4: 82% → 88% Opus: 77% → 93% Zijn benchmark meet hoe goed modellen een 100-feature PRD implementeren. @cursor_ai presteerde consequent beter.