DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Harnas Meta-benchmark idee: Een verzameling van basis agent harnassen (AGENTS.md, docs, skills, hooks) die niet-triviale toepassingen encapsuleren, elk met een enkele prompt om de toepassing in één keer vanaf nul te terraformen. Wanneer nieuwe coderingsagenten of modellen uitkomen, kunnen we tegen het harnas testen om direct te vergelijken met eerdere modelversies. “Dit model schreef een browser vanaf nul met het standaard browser harnas met X% functionaliteitsvolledigheid en slechts Y regels code in Z uren voor $XYZ.” Stel je voor dat je die browser Cursor ontwikkelt door de lens van elke daaropvolgende modelupdate. Hoe goed was de code? Hoe snel was de renderer? Hoe compleet was de set van functies? Hoe lang moest de agent draaien? Wat was de totale kosten van de tokens? Een soort CSS Zen Garden (dat veel heeft gedaan om browserstandaarden vooruit te helpen) voor agent harnassen. Ik heb het gevoel dat we allemaal het verschil hebben ervaren in Codex 5.4 Extra Hoog (als je dat niet hebt gedaan, stop dan met het lezen van deze post en probeer het onmiddellijk), maar we hebben nog steeds geen manier om in een benchmark de kwalitatieve ervaring van het gebruik ervan als ontwikkelaar vast te leggen, vooral voor metingen zoals architectuur en codekwaliteit.

Boven

Positie

Favorieten