雖然我並不是說這種自我提升的循環最終無法奏效,但我認為我們尚未達到「逃逸速度」。目前的LLM並不夠「誠實」,尤其是在施加優化壓力時,無法避免崩潰。 在那之前,我們只有一個N=1的樣本大小,這些樣本可靠地賦予了一組多樣的突現能力:預訓練。 人們應該少花時間思考後訓練,而應多花時間思考那些有效地看起來像預訓練但可能擁有不同承諾的事物。