Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Postroj
Meta-benchmark nápad: Soubor základních agentních svazků (AGENTS.md, dokumentace, dovednosti, háčky), které zachytávají netriviální aplikace, přičemž každý má jediný prompt pro terraformování aplikace najednou od nuly. Když se objeví nové kódovací agenty nebo modely, můžeme přímo porovnat s předchozími verzemi modelů. "Tento model napsal prohlížeč od základu ze standardního svazu prohlížeče s X% úplností funkcí a pouze Y řádků kódu za Z hodin po dobu $XYZ."
Představte si, že vidíte ten prohlížečový kurzor vyvíjený skrze každou další aktualizaci modelu. Jak dobrý byl ten kód? Jak rychlý byl renderer? Jak kompletní byla sada funkcí? Jak dlouho musel agent běžet? Jaká byla celková cena tokenů?
Je to takový CSS Zen Garden (který hodně pomohl posunout standardy prohlížečů vpřed) pro agentní svazky.
Mám pocit, že všichni jsme zažili rozdíl v Codex 5.4 Extra High (pokud ne, přestaňte číst tento příspěvek a okamžitě ho vyzkoušejte), ale stále nemáme způsob, jak zachytit kvalitativní zkušenost s jeho používáním jako vývojář, zejména pro měření jako architektura a kvalita kódu.
Top
Hodnocení
Oblíbené
