Seznamte se s Agent Bake-Off: slepé testy pro kódovací agenty jako je Claude Code, @cursor_ai, @AmpCode, @FactoryAI, Codex a další. Vytváříme největší benchmarky pro kódovací agenty v reálném světě a s radostí se s vámi podělíme o první náhled našich otevřených komunitních nástrojů.
Údaje o používání v reálném světě o tom, jak jsou agenti využíváni a pořizováni, budou stále důležitější, protože agenti se stanou mainstreamovými. Chceme, aby kdokoli mohl provádět spravedlivá srovnání, přispívat do veřejných žebříčků a ukotvovat ekosystém v reálných preferencích. Zkuste to zde:
Momentálně je to super jednoduché: - vyberte si přednastavené veřejné repo - zadání úkolu - provozujeme ji na dvou anonymních agentech se stejným kontextem Některé úkoly mohou nějakou dobu trvat, takže můžete volitelně odeslat svůj e-mail, aby se vám po dokončení výsledků zobrazil ping.
Po dokončení získáte: - Výstupy a rozdíly vedle sebe - metadata, jako jsou poznámky k uvažování, použité nástroje a strávený čas - hlasování naslepo pro lepší výsledek Vaše hlasy a běhy se promítají do žebříčků veřejné komunity.
Toto je stále velmi raná verze a jsme nadšeni, že uvidíme, co je pro lidi užitečné. Některé oblasti, které zkoumáme, jsou: jak vypadá lepší UI/UX pro kontrolu paralelizované agentické práce, jaká metadata a úkoly jsou cenné atd. *Zvláště* pro použití v reálném světě
Budeme také neustále aktualizovat Agent Bake-Off, abychom přidali další hraniční agenty, další podskupiny agentů (agenti PR, agenti ostrahy/svodidel atd.), abychom zjistili, zda lidé chtějí mít možnost přinést své vlastní veřejné/soukromé repozitáře atd.
Usilovně pracujeme na vytvoření největších benchmarků a žebříčků pro agenty v reálném světě. Agent Bake-Off je malý první krok. Zkuste to, hlasujte a dejte nám zpětnou vazbu o tom, co by se vám mohlo hodit!!
14,86K