Sele Meta-benchmark-idé: En samling grunnleggende agent-harnesses (AGENTS.md, dokumentasjon, ferdigheter, kroker) som kapsler inn ikke-trivielle applikasjoner, hver med en enkelt prompt for å terraforme applikasjonen i ett forsøk fra bunnen av. Når nye kodingsagenter eller modeller kommer ut, kan vi kjøre mot harnessen for å direkte sammenligne med tidligere modellversjoner. "Denne modellen skrev en nettleser fra bunnen av fra standard nettleserharness med X% funksjonsfullstendighet og kun Y linjer kode i Z timer for $XYZ." Tenk deg å se nettlesermarkøren utvikles gjennom linsen til hver påfølgende modelloppdatering. Hvor god var koden? Hvor rask var rendereren? Hvor komplett var funksjonssettet? Hvor lenge måtte agenten løpe? Hva var den totale kostnaden for tokenene? En slags CSS Zen Garden (som gjorde mye for å fremme nettleserstandarder) for agentharnesses. Jeg føler at vi alle har opplevd forskjellen i Codex 5.4 Extra High (hvis ikke, slutt å lese dette innlegget og prøv det umiddelbart), men vi har fortsatt ikke en måte å fange opp i en benchmark den kvalitative opplevelsen av å bruke det som utvikler, spesielt for mål som arkitektur og kodekvalitet.