Si estudiaste llm, te darás cuenta de que los hackers de ahora son naturalmente entrenados por sft. En mi época, aprender sobre seguridad no tenía libros de texto, lo hacía por mi cuenta, aprendiendo técnicas de penetración en sitios web oscuros, la diferencia entre rl puro y sft-rl radica en la imaginación. La capacidad de generalización de rl es mejor, mientras que sft-rl es más torpe. Por eso, un hacker solo puede surgir de un choque de rl, y no puede ser producido en masa; lo que se puede producir son solo torpes.