ik heb een blogpost geschreven over hoe we een REPL-gebaseerde zelftestsubagent hebben gebouwd om van 20 minuten -> 200 minuten autonome runtime te gaan in Agent 3 :) de belangrijkste kwestie die we wilden oplossen was het probleem van LLM's die apps genereerden die leken te werken, maar in werkelijkheid gewoon hoog-fidelity mocks waren
replit is actief in het maken van werkende apps en het blijkt dat het de agent de middelen geven om zichzelf te verifiëren een van de belangrijkste sleutels is tot hogere autonomie in agents.
door een notebook-achtige interface voor de agent te bouwen, ontdekten we dat dit een zeer mensachtige iteratieve testmodus ontgrendelde die flexibel en kosteneffectief was om in productie te implementeren
110