如果你學習了llm 你會發現 現在的黑客都是天然被sft的, 我那時候學習安全都是沒教材的 自己rl的,自己黑網站學習滲透技術,純rl和sft-rl的區別在於想象力。rl的泛化性更好,sft-rl的腦子比較呆。所以黑客只能rl碰撞出來一個,而不能批量生產,能生產的都是呆子