Se você estudar LLM, vai perceber que os hackers de hoje são naturalmente moldados por SFT. Naquela época, eu aprendi segurança sem materiais didáticos, aprendi por conta própria, explorando sites obscuros para aprender técnicas de penetração. A diferença entre RL puro e SFT-RL está na imaginação. A generalização do RL é melhor, enquanto o SFT-RL tende a ser mais limitado. Portanto, um hacker só pode surgir através de RL, não pode ser produzido em massa; os que podem ser produzidos são todos limitados.