Matt Maher testou modelos de fronteira no Cursor v. outros harnesses. O Cursor aumentou o desempenho do modelo em 11% em média: Gemini: 52% → 57% GPT-5.4: 82% → 88% Opus: 77% → 93% O seu benchmark mede quão bem os modelos implementam um PRD de 100 características. @cursor_ai superou consistentemente.