Matt Maher testade frontier-modeller i Cursor v. other harnesses. Cursor ökade modellens prestanda med i genomsnitt 11 %: Tvillingarna: 52 % → 57 % GPT-5.4: 82 % → 88 % Opus: 77 % → 93 % Hans benchmark mäter hur väl modeller implementerar en PRD med 100 funktioner. @cursor_ai presterade konsekvent bättre.