Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Sfruttare
Idea di meta-benchmark: Una collezione di agenti di base (AGENTS.md, documenti, abilità, hook) che racchiudono applicazioni non banali, ciascuna con un singolo prompt per terraformare l'applicazione in un colpo solo partendo da zero. Quando nuovi agenti di codifica o modelli vengono rilasciati, possiamo eseguire il benchmark contro l'harness per confrontarli direttamente con le versioni precedenti del modello. "Questo modello ha scritto un browser da zero partendo dall'harness standard del browser con X% di completezza delle funzionalità e solo Y righe di codice in Z ore per $XYZ."
Immagina di vedere quel browser sviluppato da Cursor attraverso la lente di ogni successivo aggiornamento del modello. Quanto era buono il codice? Quanto era veloce il renderer? Quanto era completa la gamma di funzionalità? Quanto tempo ha avuto l'agente per eseguire? Qual è stato il costo totale dei token?
Una sorta di CSS Zen Garden (che ha fatto molto per spingere in avanti gli standard dei browser) per gli agenti harness.
Sento che tutti noi abbiamo sperimentato la differenza in Codex 5.4 Extra High (se non l'hai fatto, smetti di leggere questo post e provalo immediatamente), ma non abbiamo ancora un modo per catturare in un benchmark l'esperienza qualitativa di utilizzarlo come sviluppatore, in particolare per misure come architettura e qualità del codice.
Principali
Ranking
Preferiti
