第一層是無監督的預訓練 第二層是指令微調(SFT) 第三層是強化學習(RL) AIKEK 正在準備第四、第五和第六層