Se você aprender LLM, vai perceber que os hackers de hoje são naturalmente SFT, eu não tinha livros didáticos para aprender segurança naquela época, aprendi meu próprio RL, hackeei sites para aprender tecnologia de infiltração, a diferença entre RL puro e SFT-RL é a imaginação. RL tem uma generalização melhor, e SFT-RL tem um cérebro mais apático. Portanto, hackers só podem colidir com uma RL, mas não podem ser produzidos em massa, e aqueles que conseguem produzir são todos