Verdent získal 76.1 % na SWE-bench Verified a přistál na nejvyšší úrovni vedle Claude Sonnet 4.5 a dalších předních modelů. Verdent je multiagentní kódovací systém s umělou inteligencí vytvořený pro skutečnou inženýrskou práci. Orchestruje specializované dílčí agenty prostřednictvím pracovního postupu plán-kód-ověření s architekturou založenou na ověření. Více podrobností níže 👇
SWE-bench Verified využívá skutečné problémy GitHubu z produkčních repozitářů - složité, vícesouborové problémy, které oddělují skutečné kódovací agenty od glorifikovaného automatického doplňování. 76,1 % pass@1 znamená samostatné řešení 3 ze 4 reálných inženýrských úloh.
Proč Verdent exceluje na SWE-bench Ověřeno: Kompatibilita více modelů: Běhové prostředí nezávislé na modelu přiřazuje správný model ke každé fázi (Claude pro analýzu, GPT-5 pro kontrolu). Konzistentní výkon s plnou transparentností a konfigurovatelností. Ověření na Autopilotu: Vestavěná kontrola typu, statická analýza, provádění testů s automatickými cykly opakování/ladění. Dílčí agenti kontroly kódu zpracovávají velké rozdíly. Přesahuje rámec "absolvování testů" k "splnění záměru vývojáře". Vždy na úkolu: Explicitní seznam úkolů sleduje pokrok a zabraňuje posunu kontextu při dlouhých relacích. Zrcadlí pracovní postupy lidského vývojáře krok za krokem, čímž zvyšuje úspěšnost a efektivitu tokenů.
Pracovní postup Plan-Code-Verify: 1. Režim plánu: Strukturované, upravitelné plány provádění 2. Orchestrace dílčích agentů: Specializovaní agenti (vyhledávač, recenzent, ověřovatel) Uživatelsky definované ovládání prostřednictvím agentických pravidel (agenti md) s přizpůsobitelným chováním: úrovně opatrnosti, oprávnění, styly spolupráce 3. DiffLens: Jasné doručování kódu s organizovanými rozdíly + souhrny 4. Vždy zůstaňte u úkolu s explicitním sledováním pokroku
Funkce připravené pro produkční prostředí, které přesahují referenční hodnoty: - Terminál s dlouhou životností (perzistence ve stylu tmux) - Příkazy lomítka (/init, /compact, vlastní automatizace) - Podpora protokolu MCP (Model Context Protocol) - Rozšíření VS Code + samostatná aplikace pro paralelní úlohy (Verdent Deck)
Na myšlení záleží: Experimenty společnosti Verdent ukazují, že více tokenů uvažování vede k lepšímu výkonu. Zjistili ~0,7% zlepšení, když modelům umožnili více "času na přemýšlení" – což dokazuje, že uspěchaný kód není dobrý kód, a to ani pro umělou inteligenci.
Odchylka dodavatele: Ne všichni poskytovatelé modelů jsou si rovni. Jejich testování odhalilo, že někteří poskytovatelé (například AWS Bedrock) vykazují vyšší výkonnostní odchylku - až 1,2% mezeru za stejných podmínek. Vybírejte svou infrastrukturu moudře.
Překvapivé zjištění: Když Verdent ořezali pouze na základní nástroje (bash, čtení, zápis, editace), výkon SWE-bench Verified se téměř nezměnil. To odhaluje potenciální zkreslení benchmarků – pro skutečné inženýrství jsou důležité sofistikované nástroje, ale současné benchmarky nemusí tuto složitost zachytit.
Vytvořeno bývalými inženýry TikToku a Baidu. Verdent sjednocuje špičkové modely, jako jsou GPT-5 a Sonnet 4.5, do systému zaměřeného na vývojáře. Takto vypadá agentní kódování, když je vytvořeno pro skutečnou inženýrskou práci. Bezplatnou zkušební verzi můžete spustit zde:
7,96K