Um agradecimento à @xai equipe por se esforçar às 2h da manhã para ajudar a levar isso até a linha de chegada Apresentando o Agent Runner: o primeiro harness de agentes open-source rodado com usuários reais para criar um benchmark ao vivo de programação do mundo real Rastreamos chamadas de ferramentas, reprompting e edições multiarquivo, começando pelo melhor de @OpenAI, @xai, @GoogleDeepMind, @AnthropicAI, @MistralAI, @Zai_org, @Kimi_Moonshot