Jeg skrev et blogginnlegg om hvordan vi bygde en REPL-basert selvtestingssubagent som gikk fra 20 minutter til > 200 minutter med autonom kjøretid i Agent 3 :) hovedproblemet vi ønsket å løse var problemet med LLM-er som lager apper som så ut som de fungerte, men som egentlig bare var høyoppløselige mock-filer
Replit driver med å lage fungerende apper, og det viser seg at det å gi agenten mulighet til å selvverifisere er en av nøkkelen til høyere autonomi hos agenter
Ved å bygge et notebook-lignende grensesnitt for agenten, fant vi ut at dette åpnet en svært menneskelig, iterativ testmetode som var fleksibel og kostnadseffektiv å distribuere i produksjon
112