Matt Maher ha testato modelli frontier in Cursor rispetto ad altri harness. Cursor ha migliorato le prestazioni del modello del 11% in media: Gemini: 52% → 57% GPT-5.4: 82% → 88% Opus: 77% → 93% Il suo benchmark misura quanto bene i modelli implementano un PRD a 100 caratteristiche. @cursor_ai ha costantemente superato le aspettative.