Benchmarking agentů kódování s dlouhým horizontem AI agenti vypadají podle současných benchmarků působivě. Ale tyto benchmarky často optimalizují a testují špatné věci. Tento nový výzkum představuje SWE-EVO, měřítko pro vývoj softwaru v dlouhodobém horizontu. Až 80 % softwarového inženýrství spočívá v udržování a vývoji starších kódových základen místo budování od nuly. Současné benchmarky to zcela přehlížejí. SWE-EVO odhaluje propast mezi řešením izolovaných problémů a skutečnou evolucí softwaru. Místo oprav na jednom problému musí agenti interpretovat poznámky k vydání a implementovat komplexní změny, které pokrývají v průměru 21 souborů, ověřených podle testovacích sad s průměrem 874 testů na instanci. GPT-5 s OpenHands dosahuje 65 % na SWE-Bench Verified, ale pouze 21 % na SWE-EVO. Autoři zjistili, že současní agenti mají potíže s dlouhodobým, vícesložkovým uvažováním. Benchmark je sestaven z release notes sedmi vyspělých open-source projektů v Pythonu, včetně scikit-learn, pydantic a dask. Každá úloha vyžaduje implementaci změn, které by normálně pokrývaly více pull requestů. Zlaté patche mají v průměru 610 řádků upravených ve 21 souborech a 51 funkcích. Výsledky napříč 11 modely odhalují konzistentní vzorce. Větší modely překonávají menší varianty. GPT-5 vyřeší 21 %, zatímco GPT-5-mini 10 % a GPT-5-nano 4 %. Toto hodnocení odpovídá výkonu SWE-Bench a potvrzuje SWE-EVO jako významný benchmark. Analýza selhání ukazuje odlišné vzory podle schopností modelu. Nejsilnější modely selhávají především v dodržování pokynů, špatně interpretují nuancované poznámky k vydání. Slabší modely mají potíže s používáním nástrojů a syntaktickými chybami. To naznačuje, že obtížnost SWE-EVO pramení ze sémantického uvažování, nikoli z kompetence v rozhraní. Článek: Naučte se vytvářet efektivní AI agenty v mé akademii: