En stor takk til @xai laget for å ha jobbet klokken 02:00 for å hjelpe til med å bringe dette over målstreken Vi introduserer Agent Runner: den første åpen kildekode-agent-harnessen kjørt med ekte brukere for å lage en levende benchmark for ekte koding Vi sporer verktøykall, reprompting og flerfilredigeringer, med start fra de beste fra @OpenAI, @xai, @GoogleDeepMind, @AnthropicAI, @MistralAI, @Zai_org, @Kimi_Moonshot