虽然我并不是说这种自我提升的循环最终无法奏效,但我认为我们还没有达到“逃逸速度”。目前的LLM并不够“诚实”,尤其是在施加优化压力时,无法避免崩溃。 在此之前,我们只有一个N=1的样本量,能够可靠地赋予一系列新兴能力:预训练。 人们应该少花时间考虑后训练,而应该多花时间考虑那些看起来像预训练但可能承载不同承诺的事物。