Hamul Idee meta-benchmark: O colecție de hamuri de bază pentru agenți (AGENTS.md, documentații, abilități, cârlige) care încapsulează aplicații netriviale, fiecare cu un singur prompt de a terraforma aplicația dintr-o singură încercare, pornind de la zero. Când apar agenți sau modele noi de codare, putem rula împotriva harcelului pentru a compara direct cu versiunile anterioare ale modelelor. "Acest model a scris un browser de la zero pornind de la harness-ul standard al browserului, cu X% completitudine a caracteristicilor și doar Y linii de cod în Z ore pentru $XYZ." Imaginează-ți să vezi acel Cursor de browser dezvoltat prin prisma fiecărei actualizări ulterioare de model. Cât de bun a fost codul? Cât de rapid era randarul? Cât de complet era setul de funcționalități? Cât timp a trebuit să funcționeze agentul? Care a fost costul all-in al jetoanelor? Un fel de CSS Zen Garden (care a făcut mult pentru a avansa standardele browserelor) pentru hamurile agenților. Simt că toți am experimentat diferența din Codex 5.4 Extra High (dacă nu, încetați să citiți această postare și încercați-l imediat), dar tot nu avem o modalitate de a surprinde într-un benchmark experiența calitativă a utilizării acestuia ca dezvoltator, în special pentru măsuri precum arhitectura și calitatea codului.