Matt Maher testet frontier-modeller i Cursor v. other harnesses. Cursor økte modellens ytelse med 11 % i gjennomsnitt: Tvillingene: 52 % → 57 % GPT-5.4: 82 % → 88 % Opus: 77 % → 93 % Hans referanseindeks måler hvor godt modellene implementerer en PRD med 100 funksjoner. @cursor_ai presterte konsekvent bedre.