DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Sfruttare Idea di meta-benchmark: Una collezione di agenti di base (AGENTS.md, documenti, abilità, hook) che racchiudono applicazioni non banali, ciascuna con un singolo prompt per terraformare l'applicazione in un colpo solo partendo da zero. Quando nuovi agenti di codifica o modelli vengono rilasciati, possiamo eseguire il benchmark contro l'harness per confrontarli direttamente con le versioni precedenti del modello. "Questo modello ha scritto un browser da zero partendo dall'harness standard del browser con X% di completezza delle funzionalità e solo Y righe di codice in Z ore per $XYZ." Immagina di vedere quel browser sviluppato da Cursor attraverso la lente di ogni successivo aggiornamento del modello. Quanto era buono il codice? Quanto era veloce il renderer? Quanto era completa la gamma di funzionalità? Quanto tempo ha avuto l'agente per eseguire? Qual è stato il costo totale dei token? Una sorta di CSS Zen Garden (che ha fatto molto per spingere in avanti gli standard dei browser) per gli agenti harness. Sento che tutti noi abbiamo sperimentato la differenza in Codex 5.4 Extra High (se non l'hai fatto, smetti di leggere questo post e provalo immediatamente), ma non abbiamo ancora un modo per catturare in un benchmark l'esperienza qualitativa di utilizzarlo come sviluppatore, in particolare per misure come architettura e qualità del codice.

Principali

Ranking

Preferiti