Lukasz谈到前沿模型性能的参差不齐: “你可以说这个模型在数学奥林匹克中表现得很出色。同时,我有一个一年级的女儿……她五岁。我从这本数学书中拿出一个练习题,结果没有一个前沿模型能够解决它。” 任务是什么?两个点组中有一个共享的点,你要问总数是偶数还是奇数。 “好的一点是,如果你让它思考更久,它可能真的能解决……但这需要15分钟。而人类的五岁小孩只需要15秒。”