Si aprendes LLM, verás que los hackers de hoy en día son naturalmente SFT, yo no tenía libros de texto para aprender seguridad en ese momento, aprendí mi propio RL, hackeé sitios web para aprender tecnología de infiltración, la diferencia entre RL puro y SFT-RL es la imaginación. RL tiene mejor generalización y SFT-RL tiene un cerebro más apagado. Por lo tanto, los hackers solo pueden chocar con una RL, pero no pueden producirse en masa, y quienes sí pueden producir son todos unos idiotas