Jag skrev ett blogginlägg om hur vi byggde en REPL-baserad självtestande subagent som går från 20 till > 200 minuter autonom körtid i Agent 3 :) det viktigaste vi ville lösa var problemet med att LLM:er genererade appar som såg ut att fungera men som egentligen bara var högupplösta mocks
Replit är i branschen för att skapa fungerande appar och det visar sig att ge agenten möjlighet att självverifiera är en av nyckeln till högre autonomi hos agenter
Genom att bygga ett notebook-liknande gränssnitt för agenten upptäckte vi att detta låste upp ett mycket människolikt iterativt testsätt som var flexibelt och kostnadseffektivt att distribuera i produktion
98