今天,我们宣布ARC-AGI-3的预览,这是一个互动推理基准,具有人类容易而AI困难之间最大的差距。 我们将发布: * 3个游戏(环境) * 1万美元的代理竞赛 * AI代理API 起始分数 - 前沿AI:0%,人类:100%
o3(左)和Grok 4(右)重播如下 剧透:两者都没有完成一个关卡
ARC-AGI-3 预览游戏需要进行压力测试。我们与 @huggingface 合作举办为期 30 天的代理人竞赛。 我们呼吁社区构建代理人(并赢取奖金!)
289.15K