Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Benchmarking agentů kódování s dlouhým horizontem
AI agenti vypadají podle současných benchmarků působivě. Ale tyto benchmarky často optimalizují a testují špatné věci.
Tento nový výzkum představuje SWE-EVO, měřítko pro vývoj softwaru v dlouhodobém horizontu.
Až 80 % softwarového inženýrství spočívá v udržování a vývoji starších kódových základen místo budování od nuly. Současné benchmarky to zcela přehlížejí. SWE-EVO odhaluje propast mezi řešením izolovaných problémů a skutečnou evolucí softwaru.
Místo oprav na jednom problému musí agenti interpretovat poznámky k vydání a implementovat komplexní změny, které pokrývají v průměru 21 souborů, ověřených podle testovacích sad s průměrem 874 testů na instanci.
GPT-5 s OpenHands dosahuje 65 % na SWE-Bench Verified, ale pouze 21 % na SWE-EVO.
Autoři zjistili, že současní agenti mají potíže s dlouhodobým, vícesložkovým uvažováním.
Benchmark je sestaven z release notes sedmi vyspělých open-source projektů v Pythonu, včetně scikit-learn, pydantic a dask. Každá úloha vyžaduje implementaci změn, které by normálně pokrývaly více pull requestů. Zlaté patche mají v průměru 610 řádků upravených ve 21 souborech a 51 funkcích.
Výsledky napříč 11 modely odhalují konzistentní vzorce. Větší modely překonávají menší varianty. GPT-5 vyřeší 21 %, zatímco GPT-5-mini 10 % a GPT-5-nano 4 %. Toto hodnocení odpovídá výkonu SWE-Bench a potvrzuje SWE-EVO jako významný benchmark.
Analýza selhání ukazuje odlišné vzory podle schopností modelu. Nejsilnější modely selhávají především v dodržování pokynů, špatně interpretují nuancované poznámky k vydání. Slabší modely mají potíže s používáním nástrojů a syntaktickými chybami. To naznačuje, že obtížnost SWE-EVO pramení ze sémantického uvažování, nikoli z kompetence v rozhraní.
Článek:
Naučte se vytvářet efektivní AI agenty v mé akademii:

Top
Hodnocení
Oblíbené
