Verdent scoret 76,1 % på SWE-bench Verified, og havnet i toppsjiktet sammen med Claude Sonnet 4.5 og andre ledende modeller. Verdent er et AI-kodesystem med flere agenter bygget for ekte ingeniørarbeid. Den orkestrerer spesialiserte underagenter gjennom en plan-kode-verifiseringsarbeidsflyt med verifiserings-først-arkitektur. Flere detaljer nedenfor 👇
SWE-bench Verified bruker ekte GitHub-problemer fra produksjonsrepositorier - de komplekse problemene med flere filer som skiller faktiske kodeagenter fra glorifisert autofullføring. 76,1 % pass@1 betyr å løse 3 av 4 reelle ingeniøroppgaver autonomt.
Hvorfor Verdent utmerker seg på SWE-benk Verifisert: Kompatibilitet med flere modeller: Modellagnostisk kjøretid matcher riktig modell til hvert trinn (Claude for analyse, GPT-5 for gjennomgang). Konsistent ytelse med full gjennomsiktighet og konfigurerbarhet. Verifisering på autopilot: Innebygd typekontroll, statisk analyse, testkjøring med automatiske forsøks-/feilsøkingssykluser. Underagenter for kodegjennomgang håndterer store forskjeller. Går utover å «bestå tester» til å «møte utviklerens intensjon». Alltid på-oppgave: Eksplisitt gjøremålsliste sporer fremdrift, forhindrer kontekstavvik i lange økter. Speiler arbeidsflyten for menneskelige utviklere trinn for trinn, noe som forbedrer suksessraten og tokeneffektiviteten.
Arbeidsflyten Plan-Code-Verify: 1. Planmodus: Strukturerte, redigerbare utførelsesplaner 2. Sub-agent orkestrering: Spesialiserte agenter (søker, korrekturleser, verifikator) Brukerdefinert kontroll gjennom agentiske regler (agenter md) med tilpassbar oppførsel: forsiktighetsnivåer, tillatelser, samarbeidsstiler 3. DiffLens: Tydelig kodelevering med organiserte diffs + sammendrag 4. Hold deg alltid til oppgaven med eksplisitt fremdriftssporing
Produksjonsklare funksjoner som strekker seg utover benchmarks: - Langvarig terminal (tmux-stil persistens) - Skråstrekkommandoer (/init, /compact, tilpasset automatisering) - MCP-støtte (Model Context Protocol) - VS Code-utvidelse + frittstående parallell oppgaveapp (Verdent Deck)
Tenkning betyr noe: Verdents eksperimenter viser at flere resonneringstokens fører til bedre ytelse. De fant ~0,7 % forbedring når de ga modellene mer "tenketid" - noe som beviser at forhastet kode ikke er god kode, selv for AI.
Leverandøravvik: Ikke alle modellleverandører er like. Testingen deres avslørte at noen leverandører (som AWS Bedrock) viser høyere ytelsesvarians - opptil 1,2 % gap under identiske forhold. Velg infrastrukturen din med omhu.
Overraskende oppdagelse: Da de strippet Verdent ned til bare grunnleggende verktøy (bash, les, skriv, rediger), endret SWE-bench Verifisert ytelse seg knapt. Dette avslører potensiell referanseskjevhet - sofistikerte verktøy er viktige for ekte ingeniørarbeid, men nåværende referanser fanger kanskje ikke opp denne kompleksiteten.
Bygget av tidligere TikTok- og Baidu-ingeniører. Verdent forener bransjeledende modeller som GPT-5 og Sonnet 4.5 i et utviklersentrert system. Slik ser agentkoding ut når den er bygget for ekte ingeniørarbeid. Du kan starte gratis prøveversjon her:
7,96K