如果你学习了llm 你会发现 现在的黑客都是天然被sft的, 我那时候学习安全都是没教材的 自己rl的,自己黑网站学习渗透技术,纯rl和sft-rl的区别在于想象力。rl的泛化性更好,sft-rl的脑子比较呆。所以黑客只能rl碰撞出来一个,而不能批量生产,能生产的都是呆子