Postroj Meta-benchmark nápad: Soubor základních agentních svazků (AGENTS.md, dokumentace, dovednosti, háčky), které zachytávají netriviální aplikace, přičemž každý má jediný prompt pro terraformování aplikace najednou od nuly. Když se objeví nové kódovací agenty nebo modely, můžeme přímo porovnat s předchozími verzemi modelů. "Tento model napsal prohlížeč od základu ze standardního svazu prohlížeče s X% úplností funkcí a pouze Y řádků kódu za Z hodin po dobu $XYZ." Představte si, že vidíte ten prohlížečový kurzor vyvíjený skrze každou další aktualizaci modelu. Jak dobrý byl ten kód? Jak rychlý byl renderer? Jak kompletní byla sada funkcí? Jak dlouho musel agent běžet? Jaká byla celková cena tokenů? Je to takový CSS Zen Garden (který hodně pomohl posunout standardy prohlížečů vpřed) pro agentní svazky. Mám pocit, že všichni jsme zažili rozdíl v Codex 5.4 Extra High (pokud ne, přestaňte číst tento příspěvek a okamžitě ho vyzkoušejte), ale stále nemáme způsob, jak zachytit kvalitativní zkušenost s jeho používáním jako vývojář, zejména pro měření jako architektura a kvalita kódu.