Fiz a minha primeira "habilidade". O Codex puxa os logs de erros recentes do prod onde o agente fez chamadas de ferramentas que falharam. Os logs incluem estado suficiente para o Codex: - classificar cada caso - reproduzir localmente - depurar e corrigir, se for um bug do produto ele corrigiu alguns bugs obscuros
às vezes os erros são apenas LLMs a serem tolos, como chamar a minha ferramenta "replace" com strings idênticas para a correspondência e substituição. mas muitas vezes, é um bug nas minhas coisas. Posso simplesmente executar "$tool-failure-triage" no Codex sempre que quiser. é tão incrível.
quando eu faço isso, realmente parece um empregado
20 minutos de trabalho, tão incrivelmente incrível
49