DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Harness Meta-Benchmark-Idee: Eine Sammlung grundlegender Agenten-Harnesses (AGENTS.md, Dokumente, Fähigkeiten, Hooks), die nicht triviale Anwendungen kapseln, jede mit einem einzigen Prompt, um die Anwendung in einem Schritt von Grund auf neu zu terraformen. Wenn neue Codierungsagenten oder Modelle herauskommen, können wir gegen das Harness testen, um direkt mit vorherigen Modellversionen zu vergleichen. „Dieses Modell hat einen Browser von Grund auf neu aus dem Standard-Browser-Harness mit X% Funktionsvollständigkeit und nur Y Zeilen Code in Z Stunden für $XYZ geschrieben.“ Stellen Sie sich vor, diesen Browser Cursor durch die Linse jedes nachfolgenden Modell-Updates zu sehen. Wie gut war der Code? Wie schnell war der Renderer? Wie vollständig war das Funktionsset? Wie lange musste der Agent laufen? Was war die Gesamtkosten der Tokens? Eine Art CSS Zen Garden (der viel dazu beigetragen hat, die Browserstandards voranzutreiben) für Agenten-Harnesses. Ich habe das Gefühl, dass wir alle den Unterschied in Codex 5.4 Extra High erlebt haben (wenn nicht, hören Sie auf, diesen Beitrag zu lesen und probieren Sie es sofort aus), aber wir haben immer noch keine Möglichkeit, die qualitative Erfahrung der Nutzung als Entwickler in einem Benchmark festzuhalten, insbesondere für Maße wie Architektur und Codequalität.

Top

Ranking

Favoriten